RU2809981C1

RU2809981C1 - Audio decoder, audio encoder and related methods using united coding of scaling parameters for multi-channel audio signal channels

Info

Publication number: RU2809981C1
Application number: RU2023102502A
Authority: RU
Inventors: Эммануэль РАВЕЛЛИ; Горан МАРКОВИЧ; Ян Фредерик КИНЕ; Франц РОЙТЕЛЬХУБЕР; Штефан ДЁЛА; Элени ФОТОПОУЛОУ
Original assignee: Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date: 2020-07-07
Filing date: 2021-07-05
Publication date: 2023-12-20

Abstract

FIELD: computer engineering.

SUBSTANCE: processing audio data. The technical result is achieved by applying the first set of scaling parameters to the first channel of a multi-channel audio signal and applying the second set of scaling parameters to the second channel of a multi-channel audio signal and extracting multi-channel audio data; and using the multi-channel audio data and information regarding the first group of jointly coded scaling parameters and information regarding the second group of jointly coded scaling parameters to obtain a coded multi-channel audio signal.

EFFECT: reducing the bit rate of encoding the base signal to improve the overall perceptual quality of a stereo or multi-channel signal.

38 cl, 32 dwg

Description

Подробное описание изобретения и предпочтительные варианты осуществленияDetailed Description of the Invention and Preferred Embodiments

Настоящее изобретение относится к обработке аудиосигналов и может применяться, например, в стереообработке MDCT, например, IVAS.The present invention relates to audio signal processing and can be used, for example, in MDCT stereo processing, such as IVAS.

Кроме того, настоящее изобретение может применяться при объединенном кодировании параметров формирования спектрального стереошума.In addition, the present invention can be used in joint encoding of spectral stereo noise generation parameters.

Формирование спектрального шума формирует шум квантования в частотной области таким образом, что шум квантования минимально воспринимается посредством человеческого уха, и в силу этого может быть максимизировано перцепционное качество декодированного выходного сигнала.Spectral noise shaping generates quantization noise in the frequency domain such that the quantization noise is minimally perceived by the human ear, and thereby the perceptual quality of the decoded output signal can be maximized.

Формирование спектрального шума представляет собой технологию, используемую в большинстве аудиокодеков на основе преобразования из уровня техники.Spectral noise shaping is a technology used in most audio codecs based on prior art conversion.

Усовершенствованное кодирование аудиоданных (AAC)Advanced Audio Coding (AAC)

В этом подходе [1][2] спектр MDCT сегментируется на определенное число полос частот с неравномерными коэффициентами масштабирования. Например, при 48 кГц, MDCT имеет 1024 коэффициента, и он сегментируется на 49 полос частот коэффициентов масштабирования. В каждой полосе частот коэффициент масштабирования используется для масштабирования коэффициентов MDCT этой полосы частот. Затем используется модуль скалярного квантования с постоянным размером шага для квантования масштабированных коэффициентов MDCT. На стороне декодера в каждой полосе частот выполняется обратное масштабирование, формируя шум квантования, внесенный модулем скалярного квантования.In this approach [1][2], the MDCT spectrum is segmented into a certain number of frequency bands with non-uniform scaling factors. For example, at 48 kHz, MDCT has 1024 coefficients, and it is segmented into 49 scaling factor frequency bands. In each frequency band, a scaling factor is used to scale the MDCT coefficients of that frequency band. A scalar quantization module with a constant step size is then used to quantize the scaled MDCT coefficients. On the decoder side, each frequency band is de-scaled, generating quantization noise introduced by the scalar quantization module.

49 коэффициентов масштабирования кодируются в поток битов в качестве вспомогательной информации. Это обычно требует очень высокого числа битов для кодирования коэффициентов масштабирования, вследствие относительно высокого числа коэффициентов масштабирования и требуемой высокой точности. Это может становиться проблемой при низкой скорости передачи битов и/или при низкой задержке.49 scaling factors are encoded into the bit stream as auxiliary information. This typically requires a very high number of bits to encode the scale factors, due to the relatively high number of scale factors and the high precision required. This may become a problem at low bit rates and/or low latency.

TCX на основе MDCTTCX based on MDCT

В TCX на основе MDCT, аудиокодеке на основе преобразования, используемом в стандартах MPEG-D USAC [3] и 3GPP EVS [4], формирование спектрального шума выполняется с помощью перцепционных фильтров на основе LPC, аналогичного перцепционного фильтра с используемым в последних речевых кодеках на основе ACELP (например, AMR-WB).In MDCT-based TCX, a transform-based audio codec used in the MPEG-D USAC [3] and 3GPP EVS [4] standards, spectral noise shaping is performed using LPC-based perceptual filters, a similar perceptual filter to those used in recent speech codecs on based on ACELP (eg AMR-WB).

В этом подходе, набор из 16 коэффициентов линейного прогнозирования (LPC) сначала оценивается во входном сигнале с коррекцией предыскажений. LPC затем взвешиваются и квантуются. Частотный отклик взвешенных и квантованных LPC затем вычисляется в 64 равномерно разнесенных полосах частот. Коэффициенты MDCT после этого масштабируются в каждой полосе частот с использованием вычисленного частотного отклика. Масштабированные коэффициенты MDCT затем квантуются с использованием модуля скалярного квантования с размером шага, управляемым посредством глобального усиления. В декодере, обратное масштабирование выполняется в каждых 64 полосах частот, формируя шум квантования, внесённый модулем скалярного квантования.In this approach, a set of 16 linear prediction coefficients (LPC) are first estimated on the pre-emphasis-corrected input signal. The LPCs are then weighted and quantized. The frequency response of the weighted and quantized LPCs is then calculated in 64 evenly spaced frequency bands. The MDCT coefficients are then scaled within each frequency band using the calculated frequency response. The scaled MDCT coefficients are then quantized using a scalar quantization module with a step size controlled by global gain. In the decoder, inverse scaling is performed every 64 frequency bands, generating quantization noise introduced by the scalar quantization module.

Этот подход имеет явное преимущество по сравнению с подходом AAC: он требует кодирования только 16 (LPC)+1 (глобальное усиление) параметров в качестве вспомогательной информации (в отличие от 49 параметров в AAC). Кроме того, 16 LPC могут эффективно кодироваться с небольшим числом битов посредством использования представления LSF и модуля векторного квантования. Следовательно, подход TCX на основе MDCT требует меньшего количества вспомогательных информационных битов по сравнению с подходом AAC, что может существенно изменять ситуацию при низкой скорости передачи битов и/или низкой задержке.This approach has a clear advantage over the AAC approach: it only requires encoding 16 (LPC)+1 (global gain) parameters as auxiliary information (as opposed to 49 parameters in AAC). In addition, 16 LPCs can be efficiently encoded with a small number of bits by using the LSF representation and a vector quantization module. Therefore, the MDCT-based TCX approach requires fewer auxiliary information bits compared to the AAC approach, which can make a significant difference at low bit rates and/or low latency.

Улучшенное TCX на основе MDCT (психоакустический LPC)Improved TCX based on MDCT (psychoacoustic LPC)

Улучшенная TCX-система на основе MDCT публикуется в [5]. В этом новом подходе, автокорреляция (для оценки LPC) более не выполняется во временной области, но она вместо этого вычисляется в области MDCT с использованием обратного преобразования энергий коэффициентов MDCT. Это обеспечивает возможность использования неравномерной шкалы частот посредством простой группировки коэффициентов MDCT в 64 неравномерных полосы частот и вычисления энергии каждой полосы частот. Это также уменьшает сложность, требуемую для того, чтобы вычислять автокорреляцию.An improved TCX system based on MDCT is published in [5]. In this new approach, autocorrelation (for LPC estimation) is no longer performed in the time domain, but it is instead computed in the MDCT domain using the inverse energy transform of the MDCT coefficients. This enables the use of a non-uniform frequency scale by simply grouping the MDCT coefficients into 64 non-uniform frequency bands and calculating the energy of each frequency band. This also reduces the complexity required for calculating autocorrelation.

Новое формирование спектрального шума (SNS)New Spectral Noise Shaping (SNS)

В улучшенной технологии для формирования спектрального шума, описанной в [6] и реализованной в кодеке по стандарту связи с низкой сложностью (LC3/LC3plus), низкая скорость передачи битов без значительной потери качества может получаться посредством масштабирования, на стороне кодера, с более высоким числом коэффициентов масштабирования и посредством понижающей дискретизации параметров масштабирования на стороне кодера во второй набор из 16 параметров масштабирования (параметров SNS). Таким образом, получается вспомогательная информация при низкой скорости передачи битов, с одной стороны, и при этом высококачественная спектральная обработка спектра аудиосигнала вследствие точного масштабирования, с другой стороны.In the improved technology for spectral noise shaping described in [6] and implemented in the Low Complexity Communications Codec (LC3/LC3plus), low bit rates without significant loss of quality can be achieved by scaling, on the encoder side, to a higher number scaling factors and by downsampling the encoder-side scaling parameters into a second set of 16 scaling parameters (SNS parameters). In this way, auxiliary information is obtained at a low bit rate on the one hand, and at the same time high-quality spectral processing of the audio signal spectrum due to precise scaling on the other hand.

Линейное стереопрогнозирование (SLP)Stereo Linear Prediction (SLP)

В тезисе, описанном в [7], набор коэффициентов линейного прогнозирования вычисляется не только с учетом межкадрового прогнозирования, но также и с учетом прогнозирования между каналами. Двумерный набор вычисленных коэффициентов затем квантуется и кодируется с использованием аналогичных технологий с одноканальным LP, но без учета квантования остатка в контексте тезиса. Тем не менее, описанная реализация обладает высокой задержкой и существенной сложностью, и в силу этого она является довольно неподходящей для варианта применения в реальном времени, которое требует низкой задержки, например, для систем связи.In the thesis described in [7], a set of linear prediction coefficients is calculated not only taking into account inter-frame prediction, but also taking into account inter-channel prediction. The two-dimensional set of calculated coefficients is then quantized and encoded using similar techniques to single-channel LP, but without considering the quantization of the remainder in the context of the thesis. However, the described implementation has high latency and significant complexity, and is therefore quite unsuitable for real-time applications that require low latency, such as communications systems.

В стереосистеме, такой как система на основе MDCT, которая описана в [8], предварительная обработка дискретных канальных сигналов L, R выполняется для масштабирования спектров с использованием формирования шума в частотной области в «отбеленную область». После этого объединенная стереообработка выполняется для квантования и кодирования отбеленных спектров оптимальным способом.In a stereo system, such as the MDCT-based system described in [8], pre-processing of the discrete channel signals L, R is performed to scale the spectra using frequency domain noise shaping into the "whitened domain". Fusion stereo processing is then performed to quantize and encode the whitened spectra in an optimal manner.

Параметры масштабирования для технологий формирования спектрального шума, описанных выше, кодируются с квантованием независимо для каждого канала. Это приводит к двойной скорости передачи битов вспомогательной информации, которая должна отправляться в декодер через поток битов.The scaling parameters for the spectral noise shaping technologies described above are quantized encoded independently for each channel. This results in double the bit rate of the ancillary information that must be sent to the decoder via the bit stream.

Задача настоящего изобретения состоит в создании улучшенной или более эффективной концепции кодирования/декодирования.It is an object of the present invention to provide an improved or more efficient encoding/decoding concept.

Данная задача решается посредством аудиодекодера по пункту 1 формулы, аудиокодера по пункту 17 формулы, способа декодирования по пункту 35 формулы, способа декодирования по пункту 36 формулы или компьютерной программы по пункту 37 формулы.This problem is solved by means of an audio decoder according to claim 1, an audio encoder according to claim 17, a decoding method according to claim 35, a decoding method according to claim 36, or a computer program according to claim 37.

Настоящее изобретение основано на таких выявленных сведениях, что сокращение скорости передачи битов может получаться для случаев, в которых сигналы L, R или, в общем, два или более каналов многоканального сигнала коррелируются. В таком случае, извлеченные параметры для обоих каналов вместо этого являются аналогичными. Следовательно, объединенное кодирование с квантованием параметров применяется, что приводит к значительному сокращению скорости передачи битов. Это сокращение скорости передачи битов может использоваться в нескольких различных направлениях. Одно направление может заключаться в том, чтобы расходовать сокращенную скорость передачи битов на кодирование базового сигнала таким образом, что полное перцепционное качество стерео- или многоканального сигнала повышается. Другое направление заключается в том, чтобы достигать более низкой полной скорости передачи битов в случае, если кодирование базового сигнала и в силу этого полное перцепционное качество не повышается, а остается неизменным качеством.The present invention is based on such findings that a reduction in bit rate can be obtained for cases in which the L, R signals or, in general, two or more channels of a multi-channel signal are correlated. In such a case, the extracted parameters for both channels are instead similar. Consequently, concatenated parameter quantization coding is applied, resulting in a significant reduction in bit rate. This bit rate reduction can be used in several different ways. One direction would be to spend the reduced bit rate encoding the base signal such that the overall perceptual quality of the stereo or multi-channel signal is enhanced. Another direction is to achieve a lower overall bit rate in case the encoding of the base signal and therefore the overall perceptual quality does not increase but remains the same quality.

В предпочтительном варианте осуществления, в соответствии с первым аспектом, аудиокодер содержит модуль вычисления параметров масштабирования для вычисления первой группы объединенно кодированных параметров масштабирования и второй группы объединенно кодированных параметров масштабирования для первого набора параметров масштабирования для первого канала многоканального аудиосигнала и для второго набора параметров масштабирования для второго канала многоканального аудиосигнала. Аудиокодер дополнительно содержит процессор сигналов для применения первого набора параметров масштабирования к первому каналу и для применения второго набора параметров масштабирования ко второму каналу многоканального аудиосигнала. Процессор сигналов дополнительно извлекает многоканальные аудиоданные из первых и вторых данных каналов, полученных посредством применения первых и вторых наборов параметров масштабирования, соответственно. Аудиокодер дополнительно имеет модуль формирования кодированных сигналов для использования многоканальных аудиоданных и информации относительно первой группы объединенно кодированных параметров масштабирования и информации относительно второй группы объединенно кодированных параметров масштабирования для получения кодированного многоканального аудиосигнала.In a preferred embodiment, in accordance with the first aspect, the audio encoder comprises a scaling parameter calculation module for calculating a first group of jointly encoded scaling parameters and a second group of jointly encoded scaling parameters for a first set of scaling parameters for a first channel of a multi-channel audio signal and for a second set of scaling parameters for a second channel of a multi-channel audio signal. The audio encoder further includes a signal processor for applying a first set of scaling parameters to a first channel and for applying a second set of scaling parameters to a second channel of the multi-channel audio signal. The signal processor further extracts multi-channel audio data from the first and second channel data obtained by applying the first and second sets of scaling parameters, respectively. The audio encoder further has a coded signal generation module for using multi-channel audio data and information regarding the first group of jointly coded scaling parameters and information regarding the second group of jointly coded scaling parameters to obtain a coded multi-channel audio signal.

Предпочтительно, модуль вычисления параметров масштабирования выполнен с возможностью адаптивности таким образом, что для каждого кадра или субкадра многоканального аудиосигнала, выполняется определение в отношении того, должно выполняться объединенное кодирование параметров масштабирования или отдельное кодирование параметров масштабирования. В дополнительном варианте осуществления, это определение основано на анализе подобий между каналами рассматриваемого многоканального аудиосигнала. В частности, анализ подобий осуществляется посредством вычисления энергии объединенно кодированных параметров и, в частности, энергии одного набора параметров масштабирования из первой группы и второй группы объединенно кодированных параметров масштабирования. В частности, модуль вычисления параметров масштабирования вычисляет первую группу в качестве суммы между соответствующими первыми и вторыми параметрами масштабирования и вычисляет вторую группу в качестве разности между первыми и вторыми соответствующими параметрами масштабирования. В частности, вторая группа и, предпочтительно, параметры масштабирования, которые представляют разность, используются для определения показателя подобия для принятия решения в отношении того, следует ли выполнять объединенное кодирование параметров масштабирования или отдельное кодирование параметров масштабирования. Эта ситуация может передаваться в служебных сигналах через стерео- или многоканальный флаг.Preferably, the scaling parameter calculator is adapted to be adaptive such that, for each frame or subframe of the multi-channel audio signal, a determination is made as to whether combined scaling parameter encoding or separate scaling parameter encoding should be performed. In a further embodiment, this determination is based on an analysis of the similarities between the channels of the multi-channel audio signal in question. In particular, the similarity analysis is performed by calculating the energy of the jointly encoded parameters and, in particular, the energy of one set of scaling parameters from the first group and the second group of jointly encoded scaling parameters. Specifically, the scaling parameter calculation module calculates the first group as the sum between the corresponding first and second scaling parameters, and calculates the second group as the difference between the first and second corresponding scaling parameters. In particular, the second group and preferably the scaling parameters that represent the difference are used to determine a similarity score for deciding whether to perform joint scaling parameter encoding or separate scaling parameter encoding. This situation may be signaled via a stereo or multi-channel flag.

Кроме того, предпочтительно конкретно квантовать параметры масштабирования с помощью двухступенчатого процесса квантования. Модуль векторного квантования первой ступени квантует множество параметров масштабирования или, в общем, информационных аудиоэлементов для определения результата векторного квантования первой ступени и определять множество промежуточных квантованных элементов, соответствующих результату векторного квантования первой ступени. Кроме того, модуль квантования содержит модуль определения остаточных элементов для вычисления множества остаточных элементов из множества промежуточных квантованных элементов и множества информационных аудиоэлементов. Кроме того, предусмотрен модуль векторного квантования второй ступени для квантования множества остаточных элементов для получения результата векторного квантования второй ступени, при этом результат векторного квантования первой ступени и результат векторного квантования второй ступени вместе представляют квантованное представление множества информационных аудиоэлементов, которые, в одном варианте осуществления, представляют собой параметры масштабирования. В частности, информационные аудиоэлементы могут представлять собой либо объединенно кодированные параметры масштабирования, либо отдельно кодированные параметры масштабирования. Кроме того, другие информационные аудиоэлементы могут представлять собой любые информационные аудиоэлементы, которые являются полезными для векторного квантования. В частности, помимо параметров масштабирования или коэффициентов масштабирования в качестве конкретных информационных аудиоэлементов, другие информационные аудиоэлементы, полезные для векторного квантования, представляют собой спектральные значения, такие как линии MDCT или FFT. Еще дополнительные информационные аудиоэлементы, которые могут подвергаться векторному квантованию, представляют собой аудиозначения во временной области, такие как значения аудиодискретизации или группы аудиовыборок временной области или группы частотных линий спектральной области либо данные LPC или другие данные огибающей, независимо от спектрального или временного представления данных огибающей.Moreover, it is preferable to specifically quantize the scaling parameters using a two-step quantization process. The first stage vector quantization module quantizes a plurality of scaling parameters, or generally audio information elements, to determine a first stage vector quantization result and determine a plurality of intermediate quantized elements corresponding to the first stage vector quantization result. In addition, the quantization module includes a residual element determination module for calculating a plurality of residual elements from a plurality of intermediate quantized elements and a plurality of audio information elements. In addition, a second stage vector quantization unit is provided for quantizing a plurality of residual elements to obtain a second stage vector quantization result, wherein the first stage vector quantization result and the second stage vector quantization result together represent a quantized representation of a plurality of audio information elements, which, in one embodiment, represent scaling options. In particular, the audio information elements may be either jointly encoded scaling parameters or separately encoded scaling parameters. In addition, the other audio information elements may be any audio information elements that are useful for vector quantization. In particular, in addition to scaling parameters or scaling factors as specific audio information elements, other audio information elements useful for vector quantization are spectral values such as MDCT or FFT lines. Still further audio information elements that can be vector quantized are time domain audio values, such as audio sampling values or groups of time domain audio samples or groups of spectral domain frequency lines, or LPC data or other envelope data, regardless of the spectral or temporal representation of the envelope data.

В предпочтительной реализации, модуль определения остаточных элементов вычисляет, для каждого остаточного элемента, разность между соответствующими информационными аудиоэлементами, такими как параметр масштабирования, и соответствующим промежуточным квантованным элементом, таким как квантованный параметр масштабирования или коэффициент масштабирования. Кроме того, модуль определения остаточных элементов выполнен с возможностью усиления или взвешивания для каждого остаточного элемента разности между соответствующим информационным аудиоэлементом и соответствующим промежуточным квантованным элементом таким образом, что множество остаточных элементов больше соответствующей разности, либо усиливать или взвешивать множество информационных аудиоэлементов и/или множество промежуточных квантованных элементов перед вычислением разности между усиленными элементами для получения остаточных элементов. Посредством этой процедуры может осуществляться полезное управление ошибкой квантования. В частности, когда вторая группа информационных аудиоэлементов, таких как различные параметры масштабирования, является довольно небольшой, что типично имеет место, когда первый и второй каналы коррелируются друг с другом таким образом, что объединенное квантование определено, остаточные элементы типично являются довольно небольшими. Следовательно, когда остаточные элементы усиливаются, результат квантования должен содержать большее число значений, которые не квантуются до 0, по сравнению со случаем, когда это усиление не выполнено. Следовательно, усиление на стороне кодера или квантования может быть полезным.In a preferred implementation, the residual element determiner calculates, for each residual element, the difference between the corresponding audio information elements, such as a scaling parameter, and the corresponding intermediate quantized element, such as a quantized scaling parameter or a scale factor. In addition, the residual element determination module is configured to amplify or weight, for each residual element, a difference between a corresponding audio information element and a corresponding intermediate quantized element such that the plurality of residual elements is greater than the corresponding difference, or to amplify or weight the plurality of audio information elements and/or the plurality of intermediate quantized elements. quantized elements before calculating the difference between the enhanced elements to obtain the residual elements. By this procedure, useful control of the quantization error can be achieved. In particular, when the second group of audio information elements, such as various scaling parameters, are quite small, which is typically the case when the first and second channels are correlated with each other such that the combined quantization is determined, the residual elements are typically quite small. Therefore, when the residual elements are amplified, the quantization result should contain a larger number of values that are not quantized to 0 compared to the case when this amplification is not performed. Therefore, gain on the encoder or quantization side can be useful.

Это, в частности, имеет место, когда, как в другом предпочтительном варианте осуществления, квантование объединенно кодированной второй группы параметров масштабирования, таких как разностные параметры масштабирования, выполняется. Вследствие того факта, что эти боковые параметры масштабирования в любом случае являются небольшими, может возникать такая ситуация, что, без усиления, большинство различных параметров масштабирования квантуется до 0 в любом случае. Следовательно, чтобы исключать эту ситуацию, которая может приводить к потере стереовпечатления и в силу этого к потере психоакустического качества, усиление выполняется таким образом, что только небольшое количество либо почти нуль боковых параметров масштабирования квантуются до 0. Это, конечно, уменьшает сокращение скорости передачи битов. Тем не менее вследствие этого факта, квантованные элементы остаточных данных в любом случае являются только небольшими, т.е. приводят к индексам квантования, которые представляют небольшие значения, и увеличение скорости передачи битов не является слишком высоким, поскольку индексы квантования для небольших значений кодируются эффективнее индексов квантования для больших значений. Это может еще улучшаться посредством дополнительного выполнения операции энтропийного кодирования, которая в еще большей степени предпочитает небольшие индексы квантования относительно скорости передачи битов по сравнению с более высокими индексами квантования.This is particularly the case when, as in another preferred embodiment, quantization of a jointly coded second group of scaling parameters, such as differential scaling parameters, is performed. Due to the fact that these side scaling parameters are small in any case, a situation may arise that, without gain, most of the various scaling parameters are quantized to 0 in any case. Therefore, to eliminate this situation, which may lead to loss of stereo impression and thereby loss of psychoacoustic quality, the gain is performed in such a way that only a small number or almost zero of the side scaling parameters are quantized to 0. This, of course, reduces the bit rate reduction . However, due to this fact, the quantized residual data elements are in any case only small, i.e. result in quantization indices that represent small values, and the bit rate increase is not too high because quantization indices for small values are encoded more efficiently than quantization indices for large values. This can be further improved by additionally performing an entropy encoding operation that further favors small quantization indices relative to the bit rate over higher quantization indices.

В другом предпочтительном варианте осуществления, модуль векторного квантования первой ступени представляет собой модуль векторного квантования, имеющий определенную таблицу кодирования, и модуль векторного квантования второй ступени представляет собой алгебраический модуль векторного квантования, приводящий в результате, в качестве индекса квантования, к номеру таблицы кодирования, векторному индексу в базовой таблице кодирования и индексу Вороного. Предпочтительно, и модуль векторного квантования и алгебраический модуль векторного квантования выполнены с возможностью выполнения векторного квантования с разбиением на уровни, при этом оба модуля квантования имеют одинаковую процедуру разбиения на уровни. Кроме того, модули векторного квантования первого и второй ступени конфигурированы таким образом, что число битов и в силу этого точность результата модуля векторного квантования первой ступени больше числа битов или точности результата модуля векторного квантования второй ступени, либо число битов и в силу этого точность результата модуля векторного квантования первой ступени отличается от числа битов или точности результата модуля векторного квантования второй ступени. В других вариантах осуществления модуль векторного квантования первой ступени имеет фиксированную скорость передачи битов, и модуль векторного квантования второй ступени имеет переменную скорость передачи битов. Таким образом, в общем, характеристики модулей векторного квантования первой ступени и второй ступени отличаются друг от друга.In another preferred embodiment, the first stage vector quantizer is a vector quantizer having a specific codebook, and the second stage vector quantizer is an algebraic vector quantizer resulting, as a quantization index, in a codebook number, vector index in the base coding table and Voronoi index. Preferably, both the vector quantization module and the algebraic vector quantization module are configured to perform layered vector quantization, where both quantization modules have the same layering procedure. In addition, the first and second stage vector quantization modules are configured in such a way that the number of bits and therefore the accuracy of the result of the first stage vector quantization module is greater than the number of bits or the accuracy of the result of the second stage vector quantization module, or the number of bits and therefore the accuracy of the module result The vector quantization of the first stage is different from the number of bits or the accuracy of the result of the vector quantization module of the second stage. In other embodiments, the first stage vector quantizer has a fixed bit rate, and the second stage vector quantizer has a variable bit rate. Thus, in general, the characteristics of the vector quantization units of the first stage and the second stage are different from each other.

В предпочтительном варианте осуществления аудиодекодера для декодирования кодированного аудиосигнала в соответствии с первым аспектом, аудиодекодер содержит декодер параметров масштабирования для декодирования информации относительно объединенно кодированных параметров масштабирования. Кроме того, аудиодекодер имеет процессор сигналов, в котором декодер параметров масштабирования выполнен с возможностью комбинирования объединенно кодированного параметра масштабирования первой группы и объединенно кодированного параметра масштабирования второй группы с использованием различных правил комбинирования для получения параметров масштабирования для первого набора параметров масштабирования и параметров масштабирования для второго набора параметров масштабирования, которые затем используются процессором сигналов.In a preferred embodiment of an audio decoder for decoding a coded audio signal in accordance with the first aspect, the audio decoder includes a scaling parameter decoder for decoding information regarding the jointly coded scaling parameters. In addition, the audio decoder has a signal processor, wherein the scaling parameter decoder is configured to combine the jointly encoded scaling parameter of the first group and the jointly encoded scaling parameter of the second group using various combination rules to obtain scaling parameters for the first set of scaling parameters and scaling parameters for the second set. scaling parameters, which are then used by the signal processor.

В соответствии с дополнительным аспектом настоящего изобретения предложено устройство деквантования аудиоданных, которое содержит модуль векторного деквантования первой ступени, модуль векторного деквантования второй ступени и модуль комбинирования для комбинирования множества промежуточных квантованных информационных элементов, полученных посредством модуля векторного деквантования первой ступени, и множества остаточных элементов, полученных из модуля векторного деквантования второй ступени, для получения деквантованного множества информационных аудиоэлементов.According to a further aspect of the present invention, there is provided an audio data dequantization apparatus that includes a first stage vector dequantization module, a second stage vector dequantization module, and a combining module for combining a plurality of intermediate quantized information elements obtained by the first stage vector dequantization module and a plurality of residual elements obtained by from the second stage vector dequantization module to obtain a dequantized plurality of audio information elements.

Первый аспект объединенного кодирования параметров масштабирования может комбинироваться со вторым аспектом, связанным с двухступенчатым векторным квантованием. С другой стороны, аспект двухступенчатого векторного квантования может применяться к отдельно кодированным параметрам масштабирования, таким как параметры масштабирования для левого канала и правого канала, либо может применяться к средним параметрам масштабирования в качестве другого вида информационного аудиоэлемента. Таким образом, второй аспект двухступенчатого векторного квантования может применяться независимо от первого аспекта или вместе с первым аспектом.The first aspect of the combined encoding of scaling parameters may be combined with the second aspect associated with two-stage vector quantization. On the other hand, the two-stage vector quantization aspect may be applied to separately encoded scaling parameters, such as the scaling parameters for the left channel and the right channel, or may be applied to the average scaling parameters as another kind of audio information element. Thus, the second aspect of two-stage vector quantization may be applied independently of the first aspect or in conjunction with the first aspect.

Далее обобщенно поясняются предпочтительные варианты осуществления настоящего изобретения.Next, preferred embodiments of the present invention are explained generally.

В стереосистеме, в которой используется кодирование на основе преобразования (MDCT), параметры масштабирования, которые извлекаются из любой из технологий, описанных во вводном разделе для выполнения формирования шума в частотной области на стороне кодера, должны подвергаться квантованию и кодироваться для включения в качестве вспомогательной информации в поток битов. После этого, на стороне декодера, параметры масштабирования декодируются и используются для масштабирования спектра каждого канала для формирования шума квантования таким способом, который минимально воспринимается.In a stereo system that uses transform-based coding (MDCT), the scaling parameters that are extracted from any of the technologies described in the introductory section to perform frequency domain noise shaping at the encoder side must be quantized and encoded for inclusion as auxiliary information into a bit stream. Then, on the decoder side, the scaling parameters are decoded and used to scale the spectrum of each channel to shape the quantization noise in a way that is minimally perceptible.

Независимое кодирование параметров формирования спектрального шума двух каналов: левого и правого, может применяться.Independent coding of the spectral noise generation parameters of two channels: left and right, can be used.

Параметры масштабирования формирования спектрального шума кодируются адаптивно независимо или объединенно, в зависимости от степени корреляции между двумя каналами. В общих словах:Spectral noise generation scaling parameters are coded adaptively independently or jointly, depending on the degree of correlation between the two channels. In general terms:

- Среднее/боковое представление параметров масштабирования вычисляется.- The middle/side view of the scaling parameters is calculated.

- Энергия боковых параметров вычисляется.- The energy of the lateral parameters is calculated.

- В зависимости от энергии, указывающей степень корреляции между двумя сигналами, параметры кодируются:- Depending on the energy, indicating the degree of correlation between two signals, the parameters are encoded:

- Независимо: аналогично текущему подходу, с использованием, для каждого канала, например, двухступенчатого векторного квантования (VQ).- Independent: similar to the current approach, using, for example, two-stage vector quantization (VQ) on a per-channel basis.

- Объединенно:- Merged:

- Средний вектор кодируется с использованием, например, двухступенчатого векторного квантования. Боковой вектор кодируется с использованием более приблизительной схемы квантования, например, посредством такого предположения, что -вывод VQ первой ступени содержит квантованные значения в нуль, и применения только квантования второй ступени, например, алгебраического модуля векторного квантования (AVQ).- The average vector is encoded using, for example, two-stage vector quantization. The side vector is encoded using a more approximate quantization scheme, for example, by assuming that the VQ output of the first stage contains quantized values to zero, and applying only the second stage quantization, for example, an algebraic vector quantization (AVQ) unit.

- Один дополнительный бит используется для передачи в служебных сигналах того, является ли квантованный боковой вектор нулевым.- One extra bit is used to signal whether the quantized side vector is zero.

- Дополнительный один бит для передачи в служебных сигналах того, кодируются ли два канала объединенно или независимо, отправляется в декодер.- An additional one bit to signal whether the two channels are jointly or independently encoded is sent to the decoder.

На фиг. 24 показана стереореализация кодера MDCT, как подробно описано в [8]. Существенная часть стереосистемы, описанной в [8], заключается в том, что стереообработка выполняется для «отбеленных» спектров. Следовательно, каждый канал подвергается предварительной обработке, в которой, для каждого кадра, после кодирования со взвешиванием, блок во временной области преобразуется в область MDCT, после чего формирование временного шума (TNS) применяется адаптивно, либо до, либо после формирования спектрального шума (SNS) в зависимости от характеристик сигналов. После формирования спектрального шума, объединенная стереообработка выполняется, а именно, адаптивное решение M-S, L/R для каждой полосы частот для квантования и кодирования отбеленных спектральных коэффициентов эффективным способом. В качестве следующего этапа, стереоанализ на основе интеллектуального заполнения интервалов отсутствия сигнала (IGF) проводится, и соответствующие информационные биты записываются в поток битов. В завершение, обработанные коэффициенты квантуются и кодируются. Добавлены ссылочные позиции, аналогичные ссылочным позициям на фиг. 1. Вычисление и обработка коэффициентов масштабирования осуществляются в блоках "SNS" между двумя блоками TNS на фиг. 24. Блок «кодирование со взвешиванием» иллюстрирует операцию кодирования со взвешиванием. Блок "MCLT" означает модифицированное комплексное перекрывающееся преобразование. Блок "MDCT" означает модифицированное дискретное косинусное преобразование. Блок «спектр мощности» означает вычисление спектра мощности. Блок «решение по блочному переключению» означает анализ входного сигнала для определения длин блоков, которые должны использоваться для кодирования со взвешиванием. Блок "TNS" означает формирование временного шума, и этот признак выполняется до или после масштабирования спектра в блоке "SNS".In fig. 24 shows a stereo implementation of the MDCT encoder, as described in detail in [8]. An essential part of the stereo system described in [8] is that stereo processing is performed on “whitened” spectra. Consequently, each channel is subjected to pre-processing in which, for each frame, after weighted encoding, the block in the time domain is converted into the MDCT domain, after which temporal noise shaping (TNS) is applied adaptively, either before or after spectral noise shaping (SNS ) depending on the characteristics of the signals. After generating the spectral noise, joint stereo processing is performed, namely, an adaptive M-S, L/R decision for each frequency band to quantize and encode the whitened spectral coefficients in an efficient manner. As a next step, intelligent gap filling (IGF) based stereo analysis is carried out and the corresponding information bits are written into the bitstream. Finally, the processed coefficients are quantized and encoded. Reference numerals similar to those in FIG. 1 have been added. 1. Calculation and processing of scaling factors is carried out in "SNS" blocks between two TNS blocks in FIG. 24. The "weighted encoding" block illustrates a weighted encoding operation. The "MCLT" block stands for modified complex overlap transform. The "MDCT" block stands for Modified Discrete Cosine Transform. The power spectrum block means calculating the power spectrum. The block switch decision block means analyzing the input signal to determine the block lengths that should be used for weighted encoding. The "TNS" block means temporal noise generation, and this feature is performed before or after the spectrum scaling in the "SNS" block.

В стереореализации MDCT кодека, описанной в [7], на стороне кодера предварительная обработка дискретных каналов L-R выполняется для масштабирования спектров с использованием формирования шума в частотной области в «отбеленную область». После этого, объединенная стереообработка выполняется для квантования и кодирования отбеленных спектров оптимальным способом.In the stereo implementation of the MDCT codec described in [7], on the encoder side, pre-processing of discrete L-R channels is performed to scale the spectra using frequency domain noise shaping into the "whitened domain". After this, fusion stereo processing is performed to quantize and encode the whitened spectra in an optimal way.

На стороне декодера, как проиллюстрировано на фиг. 25 и описано в [8], кодированный сигнал декодируется, и выполняется обратное квантование и обратная стереообработка. Затем «устраняется отбеливание» спектра каждого канала посредством параметров формирования спектрального шума, которые извлекаются из потока битов. Добавлены ссылочные позиции, аналогичные ссылочным позициям на фиг. 1,. Декодирование и обработка коэффициентов масштабирования осуществляются в блоках 220 на фиг. 25. Блоки, указываемые на чертеже, связаны с блоками в кодере на фиг. 24 и типично выполняют соответствующие обратные операции. Блок «кодирование со взвешиванием и OLA» выполняет операцию синтезирующего кодирования со взвешиванием и последующую операцию сложения с перекрытием для получения выходных сигналов L и R временной области.On the decoder side, as illustrated in FIG. 25 and described in [8], the encoded signal is decoded, and inverse quantization and inverse stereo processing are performed. Each channel's spectrum is then "dewhitened" through spectral noise shaping parameters that are extracted from the bitstream. Reference numerals similar to those in FIG. 1 have been added. 1,. Decoding and scaling factor processing occurs in blocks 220 in FIG. 25. The blocks indicated in the drawing are related to the blocks in the encoder in FIG. 24 and typically perform the corresponding inverse operations. The Weighted Encoding and OLA block performs a weighted synthesis encoding operation and a subsequent overlap addition operation to obtain time domain output signals L and R.

Формирование шума в частотной области (FDNS), применяемое в системе в [8], здесь заменяется SNS, как описано в [6]. Блок-схема тракта обработки SNS показана на блок-схемах по фиг. 1 и фиг. 2 для кодера и декодера, соответственно.Frequency domain noise shaping (FDNS) used in the system in [8] is here replaced by SNS as described in [6]. A block diagram of the SNS processing path is shown in the block diagrams of FIGS. 1 and fig. 2 for the encoder and decoder, respectively.

Предпочтительно, низкая скорость передачи битов без значительной потери качества может получаться посредством масштабирования, на стороне кодера, с более высоким числом коэффициентов масштабирования и посредством понижающей дискретизации параметров масштабирования на стороне кодера во второй набор параметров масштабирования или коэффициентов масштабирования, причем параметры масштабирования во втором наборе, который затем кодируется и передается или сохраняется через выходной интерфейс, ниже первого числа параметров масштабирования. Таким образом, точное масштабирование, с одной стороны, и низкая скорость передачи битов, с другой стороны, получаются на стороне кодера.Preferably, a low bit rate without significant loss of quality can be obtained by encoder-side scaling with a higher number of scaling factors and by downsampling the encoder-side scaling parameters into a second set of scaling parameters or scaling factors, wherein the scaling parameters in the second set are which is then encoded and transmitted or stored through the output interface, below the first number of scaling parameters. Thus, precise scaling on the one hand and low bit rate on the other hand are obtained on the encoder side.

На стороне декодера, передаваемое небольшое число коэффициентов масштабирования декодируется посредством декодера коэффициентов масштабирования для получения первого набора коэффициентов масштабирования, причем число коэффициентов масштабирования или параметров масштабирования в первом наборе больше числа коэффициентов масштабирования или параметров масштабирования второго набора, и после этого, снова, точное масштабирование с использованием более высокого числа параметров масштабирования выполняется на стороне декодера в спектральном процессоре, чтобы получать точно масштабированное спектральное представление.On the decoder side, the transmitted small number of scale factors is decoded by a scale factor decoder to obtain a first set of scale factors, the number of scale factors or scale parameters in the first set being greater than the number of scale factors or scale parameters of the second set, and thereafter, again, fine scaling with using a higher number of scaling parameters is performed on the decoder side of the spectral processor to obtain a precisely scaled spectral representation.

Таким образом, получается низкая скорость передачи битов, с одной стороны, и при этом высококачественная спектральная обработка спектра аудиосигнала, с другой стороны.This results in a low bit rate on the one hand, and at the same time high-quality spectral processing of the audio signal spectrum on the other hand.

Формирование спектрального шума, выполняемом в предпочтительных вариантах осуществления, реализуется только с использованием очень низкой скорости передачи битов. Таким образом, это формирование спектрального шума может представлять собой важнейшее инструментальное средство даже в аудиокодеке на основе преобразования с низкой скоростью передачи битов. Формирование спектрального шума формирует шум квантования в частотной области таким образом, что шум квантования минимально воспринимается посредством человеческого уха, и в силу этого перцепционное качество декодированного выходного сигнала может максимизироваться.The spectral noise shaping performed in preferred embodiments is implemented only using a very low bit rate. Thus, this spectral noise shaping can be a critical tool even in a low bit rate conversion based audio codec. Spectral noise shaping generates quantization noise in the frequency domain such that the quantization noise is minimally perceived by the human ear, and thereby the perceptual quality of the decoded output signal can be maximized.

Предпочтительные варианты осуществления базируются на спектральных параметрах, вычисленных из связанных с амплитудой показателей, таких как энергии спектрального представления. В частности, энергии для каждой полосы частот или, в общем, связанные с амплитудой показатели для каждой полосы частот вычисляются как основание для параметров масштабирования, причем полосы пропускания, используемые при вычислении связанных с амплитудой показателей для каждой полосы частот, увеличиваются от полос нижних к полосам верхних частот, чтобы приближаться к характеристике человеческого слуха в максимально возможной степени. Предпочтительно, разделение спектрального представления на полосы частот выполняется в соответствии с известной шкалой в барках.Preferred embodiments are based on spectral parameters calculated from amplitude-related metrics, such as energies of the spectral representation. In particular, the energies for each frequency band, or more generally the amplitude-related metrics for each frequency band, are calculated as the basis for the scaling parameters, with the bandwidths used in calculating the amplitude-related metrics for each frequency band increasing from lower bands to lower bands. high frequencies to approximate the characteristics of human hearing as much as possible. Preferably, the division of the spectral representation into frequency bands is carried out in accordance with the known bar scale.

В дополнительных вариантах осуществления, параметры масштабирования в линейной области вычисляются и, в частности, вычисляются для первого набора параметров масштабирования с высоким числом параметров масштабирования, и это высокое число параметров масштабирования преобразуется в логарифмическую область. Логарифмическая область, в общем, представляет собой область, в которой небольшие значения расширяются, а высокие значения сжимаются. Далее, операция понижающей дискретизации или прореживания параметров масштабирования выполняется в логарифмической области, которая может представлять собой логарифмическую область с основанием 10 или логарифмическую область с основанием 2, при этом вторая является предпочтительной для целей реализации. Второй набор коэффициентов масштабирования затем вычисляется в логарифмической области, и, предпочтительно, векторное квантование второго набора коэффициентов масштабирования выполняется, при этом коэффициенты масштабирования находятся в логарифмической области. Таким образом, результат векторного квантования указывает параметры масштабирования в логарифмической области. Второй набор коэффициентов масштабирования или параметров масштабирования имеет, например, число коэффициентов масштабирования в половину от числа коэффициентов масштабирования первого набора или даже в одну треть или, еще более предпочтительно, в одну четверть. После этого, квантованное небольшое число параметров масштабирования во втором наборе параметров масштабирования переводится в поток битов и затем передается из стороны кодера в сторону декодера либо сохраняется в качестве кодированного аудиосигнала вместе с квантованным спектром, который также обработан с использованием этих параметров, причем эта обработка дополнительно заключает в себе квантование с использованием глобального усиления. Тем не менее, предпочтительно, кодер извлекает из этих квантованных вторых коэффициентов масштабирования в логарифмической области снова набор коэффициентов масштабирования линейной области, который представляет собой третий набор коэффициентов масштабирования, и число коэффициентов масштабирования в третьем наборе коэффициентов масштабирования больше второго числа и предпочтительно даже равно первому числу коэффициентов масштабирования в первом наборе первых коэффициентов масштабирования. Затем на стороне кодера, эти интерполированные коэффициенты масштабирования используются для обработки спектрального представления, причем обработанное спектральное представление в конечном счете квантуется и в любом случае энтропийно кодируется, к примеру, посредством кодирования кодом Хаффмана, арифметического кодирования либо кодирования на основе векторного квантования и т.д.In further embodiments, scaling parameters in the linear domain are calculated and, in particular, are calculated for a first set of scaling parameters with a high number of scaling parameters, and this high number of scaling parameters is converted to the logarithmic domain. The logarithmic region is, in general, a region in which small values expand and high values contract. Next, the downsampling or decimation operation of the scaling parameters is performed in a logarithmic domain, which may be a base 10 logarithmic domain or a base 2 logarithmic domain, the latter being preferred for implementation purposes. The second set of scale factors is then calculated in the logarithmic domain, and preferably, vector quantization of the second set of scale factors is performed with the scale factors being in the logarithmic domain. Thus, the result of vector quantization indicates scaling parameters in the logarithmic domain. The second set of scale factors or scaling parameters has, for example, a number of scale factors that is half the number of scale factors of the first set, or even one third, or even more preferably one quarter. Thereafter, the quantized small number of scaling parameters in the second set of scaling parameters are translated into a bitstream and then transmitted from the encoder side to the decoder side or stored as an encoded audio signal along with a quantized spectrum that is also processed using these parameters, which processing further concludes contains quantization using global amplification. However, preferably, the encoder extracts from these quantized second logarithmic domain scale factors again a set of linear domain scale factors, which is the third set of scale factors, and the number of scale factors in the third set of scale factors is greater than the second number and preferably even equal to the first number scaling factors in the first set of first scaling factors. Then, on the encoder side, these interpolated scaling factors are used to process the spectral representation, where the processed spectral representation is ultimately quantized and in any case entropy encoded, for example, by Huffman encoding, arithmetic encoding or vector quantization encoding, etc. .

В декодере, который принимает кодированный сигнал, имеющий низкое число спектральных параметров, вместе с кодированным представлением спектрального представления, низкое число параметров масштабирования интерполируется в высокое число параметров масштабирования, т.е. для получения первого набора параметров масштабирования, причем число параметров масштабирования коэффициентов масштабирования из второго набора коэффициентов масштабирования или параметров масштабирования меньше числа параметров масштабирования из первого набора, т.е. набора, вычисленного посредством декодера коэффициентов/параметров масштабирования. Затем спектральный процессор, расположенный в устройстве для декодирования кодированного аудиосигнала, обрабатывает декодированное спектральное представление с использованием этого первого набора параметров масштабирования для получения масштабированного спектрального представления. Преобразователь для преобразования масштабированного спектрального представления затем работает с возможностью получения в конечном счете декодированного аудиосигнала, который предпочтительно находится во временной области.In a decoder that receives a coded signal having a low number of spectral parameters together with a coded representation of the spectral representation, the low number of scaling parameters is interpolated into a high number of scaling parameters, i.e. to obtain a first set of scaling parameters, wherein the number of scaling parameters of the scaling factors from the second set of scaling factors or scaling parameters is less than the number of scaling parameters from the first set, i.e. set calculated by the scaling coefficients/parameters decoder. A spectral processor located in the apparatus for decoding the encoded audio signal then processes the decoded spectral representation using this first set of scaling parameters to obtain a scaled spectral representation. The scaled spectral representation converter then operates to produce an ultimately decoded audio signal, which is preferably in the time domain.

Дополнительные варианты осуществления приводят к дополнительным преимуществам, изложенным ниже. В предпочтительных вариантах осуществления, формирование спектрального шума выполняется с помощью 16 параметров масштабирования, аналогичных коэффициентам масштабирования, используемым в [6] или в [8], или в [1]. Эти параметры получаются в кодере посредством вычисления сначала энергии спектра MDCT в 64 неравномерных полосах частот (аналогичных 64 неравномерным полосам частот документа 3 из уровня техники), затем посредством применения некоторой обработки к 64 энергиям (сглаживания, коррекции предыскажений, минимального уровня шума, логарифмического преобразования), затем посредством понижающей дискретизации 64 обработанных энергий на коэффициент 4, чтобы получать 16 параметров, которые в конечном счете нормализуются и масштабируются. Эти 16 параметров затем квантуются с использованием векторного квантования (с использованием векторного квантования, аналогичного векторному квантованию, используемому в документах 2/3 из уровня техники). Квантованные параметры затем интерполируются, чтобы получать 64 интерполированных параметра масштабирования. 64 параметра масштабирования затем используются для непосредственного формирования спектра MDCT в 64 неравномерных полосах частот. Аналогично документам 2 и 3 из уровня техники, масштабированные коэффициенты MDCT затем квантуются с использованием модуля скалярного квантования с размером шага, управляемым посредством глобального усиления.Additional embodiments provide additional benefits set forth below. In preferred embodiments, spectral noise generation is performed using 16 scaling parameters similar to the scaling factors used in [6] or [8] or [1]. These parameters are obtained in the encoder by first calculating the energy of the MDCT spectrum in the 64 ripple bands (similar to the 64 ripple bands of the prior art document 3), then by applying some processing to the 64 energies (smoothing, pre-emphasis correction, noise floor, logarithmic transformation) , then downsampling the 64 processed energies by a factor of 4 to produce 16 parameters, which are ultimately normalized and scaled. These 16 parameters are then quantized using vector quantization (using vector quantization similar to the vector quantization used in prior art documents 2/3). The quantized parameters are then interpolated to obtain 64 interpolated scaling parameters. The 64 scaling parameters are then used to directly shape the MDCT spectrum in 64 non-uniform frequency bands. Similar to prior art documents 2 and 3, the scaled MDCT coefficients are then quantized using a scalar quantization module with a step size controlled by global gain.

В дополнительном варианте осуществления, информация относительно объединенно кодированных параметров масштабирования для одной из двух групп, к примеру, для второй группы, предпочтительно связанной с боковыми параметрами масштабирования, не содержит индексы квантования или другие биты квантования, а содержит только информацию, такую как флаг или один бит, указывающий, что все параметры масштабирования для второй группы являются нулевыми для части или кадра аудиосигнала. Эта информация определяется кодером посредством анализа или другим средством и используется декодером для синтеза второй группы параметров масштабирования на основе этой информации, к примеру, посредством формирования нулевых параметров масштабирования для временной части или кадра аудиосигнала, либо используется декодером для вычисления первого и второго набора параметров масштабирования только с использованием первой группы объединенно кодированных параметров масштабирования.In a further embodiment, the information regarding the jointly coded scaling parameters for one of the two groups, for example, for the second group, preferably associated with the side scaling parameters, does not contain quantization indices or other quantization bits, but only information such as a flag or one a bit indicating that all scaling parameters for the second group are zero for a portion or frame of the audio signal. This information is determined by the encoder through analysis or other means and is used by the decoder to synthesize a second set of scaling parameters based on this information, for example, by generating zero scaling parameters for a time portion or frame of the audio signal, or is used by the decoder to calculate a first and second set of scaling parameters only using the first group of jointly coded scaling parameters.

В дополнительном варианте осуществления, вторая группа объединенно кодированных параметров масштабирования квантуется только с использованием второй ступени квантования двухступенчатого модуля квантования, который предпочтительно представляет собой ступень модуля квантования с переменной скоростью. В этом случае, предполагается, что первая ступень приводит в результате ко всем нулевым квантованным значениям, так что только вторая ступень является эффективной. В еще одном дополнительном варианте осуществления, применяется только первая ступень квантования двухступенчатого модуля квантования, который предпочтительно представляет собой ступень квантования с фиксированной скоростью, а вторая ступень вообще не используется для временной части или кадра аудиосигнала. Этот случай соответствует ситуации, в которой все остаточные элементы предположительно равны нулю либо меньше наименьшего или первого размера шага квантования второй ступени квантования.In a further embodiment, the second group of concatenated encoded scaling parameters is quantized using only the second quantization stage of the two-stage quantizer, which is preferably a variable rate quantizer stage. In this case, it is assumed that the first stage results in all zero quantized values, so that only the second stage is effective. In yet another further embodiment, only the first quantization stage of the two-stage quantizer is used, which is preferably a fixed-rate quantization stage, and the second stage is not used at all for the time portion or frame of the audio signal. This case corresponds to a situation in which all residual elements are assumed to be zero or less than the smallest or first quantization step size of the second quantization stage.

Далее предпочтительные варианты осуществления настоящего изобретения поясняются с обращением к сопровождающим чертежам, на которых:Preferred embodiments of the present invention will now be explained with reference to the accompanying drawings, in which:

Фиг. 1 иллюстрирует декодер в соответствии с первым аспектом;Fig. 1 illustrates a decoder in accordance with the first aspect;

Фиг. 2 иллюстрирует кодер в соответствии с первым аспектом;Fig. 2 illustrates an encoder in accordance with the first aspect;

Фиг. 3a иллюстрирует другой кодер в соответствии с первым аспектом;Fig. 3a illustrates another encoder in accordance with the first aspect;

Фиг. 3b иллюстрирует другую реализацию кодера в соответствии с первым аспектом;Fig. 3b illustrates another implementation of an encoder in accordance with the first aspect;

Фиг. 4a иллюстрирует дополнительный вариант осуществления декодера в соответствии с первым аспектом;Fig. 4a illustrates a further embodiment of a decoder in accordance with the first aspect;

Фиг. 4b иллюстрирует другой вариант осуществления декодера;Fig. 4b illustrates another embodiment of a decoder;

Фиг. 5 иллюстрирует дополнительный вариант осуществления кодера;Fig. 5 illustrates an additional encoder embodiment;

Фиг. 6 иллюстрирует дополнительный вариант осуществления кодера;Fig. 6 illustrates an additional embodiment of an encoder;

Фиг. 7a иллюстрирует предпочтительную реализацию модуля векторного деквантования в соответствии с первым или вторым аспектом;Fig. 7a illustrates a preferred implementation of a vector dequantization module in accordance with the first or second aspect;

Фиг. 7b иллюстрирует дополнительный модуль квантования в соответствии с первым или вторым аспектом;Fig. 7b illustrates an additional quantization module in accordance with the first or second aspect;

Фиг. 8a иллюстрирует декодер в соответствии с первым аспектом настоящего изобретения;Fig. 8a illustrates a decoder in accordance with the first aspect of the present invention;

Фиг. 8b иллюстрирует кодер в соответствии с первым аспектом настоящего изобретения;Fig. 8b illustrates an encoder in accordance with the first aspect of the present invention;

Фиг. 9a иллюстрирует кодер в соответствии со вторым аспектом настоящего изобретения;Fig. 9a illustrates an encoder in accordance with the second aspect of the present invention;

Фиг. 9b иллюстрирует декодер в соответствии со вторым аспектом настоящего изобретения;Fig. 9b illustrates a decoder in accordance with the second aspect of the present invention;

Фиг. 10 иллюстрирует предпочтительную реализацию декодера в соответствии с первым или вторым аспектом;Fig. 10 illustrates a preferred implementation of a decoder in accordance with the first or second aspect;

Фиг. 11 является блок-схемой устройства для кодирования аудиосигнала;Fig. 11 is a block diagram of an apparatus for encoding an audio signal;

Фиг. 12 является схематичным представлением предпочтительной реализации модуля вычисления коэффициентов масштабирования по фиг. 1;Fig. 12 is a schematic representation of a preferred implementation of the scale factor calculator of FIG. 1;

Фиг. 13 является схематичным представлением предпочтительной реализации модуля понижающей дискретизации по фиг. 1;Fig. 13 is a schematic representation of a preferred implementation of the downsampling module of FIG. 1;

Фиг. 14 является схематичным представлением кодера коэффициентов масштабирования по фиг. 4;Fig. 14 is a schematic representation of the scale factor encoder of FIG. 4;

Фиг. 15 является схематичной иллюстрацией спектрального процессора по фиг. 1;Fig. 15 is a schematic illustration of the spectral processor of FIG. 1;

Фиг. 16 иллюстрирует общее представление кодера, с одной стороны, и декодера, с другой стороны, реализующих формирование спектрального шума (SNS);Fig. 16 illustrates an overview of an encoder on the one hand and a decoder on the other hand implementing spectral noise generation (SNS);

Фиг. 17 иллюстрирует более подробное представление стороны кодера, с одной стороны, и стороны декодера, с другой стороны, в котором формирование временного шума (TNS) реализуется вместе с формированием спектрального шума (SNS);Fig. 17 illustrates a more detailed view of the encoder side on the one hand and the decoder side on the other hand, in which temporal noise generation (TNS) is implemented together with spectral noise generation (SNS);

Фиг. 18 иллюстрирует блок-схему устройства для декодирования кодированного аудиосигнала;Fig. 18 illustrates a block diagram of an apparatus for decoding an encoded audio signal;

Фиг. 19 является схематичной иллюстрацией, представляющей подробности декодера коэффициентов масштабирования, спектрального процессора и спектрального декодера по фиг. 8;Fig. 19 is a schematic illustration showing details of the scale factor decoder, spectral processor and spectral decoder of FIG. 8;

Фиг. 20 иллюстрирует подразделение спектра на 64 полосы частот;Fig. 20 illustrates the division of the spectrum into 64 frequency bands;

Фиг. 21 приводит схематичную иллюстрацию операции понижающей дискретизации, с одной стороны, и операции интерполяции, с другой стороны;Fig. 21 provides a schematic illustration of a downsampling operation on the one hand and an interpolation operation on the other hand;

Фиг. 22a иллюстрирует аудиосигнал временной области с перекрывающимися кадрами;Fig. 22a illustrates a time domain audio signal with overlapping frames;

Фиг. 22b иллюстрирует реализацию преобразователя по фиг. 1;Fig. 22b illustrates an implementation of the converter of FIG. 1;

Фиг. 22c приводит схематичную иллюстрацию преобразователя по фиг. 8;Fig. 22c provides a schematic illustration of the converter of FIG. 8;

Фиг. 23 иллюстрирует гистограмму, сравнивающую различные процедуры согласно изобретению;Fig. 23 illustrates a bar graph comparing various procedures according to the invention;

Фиг. 24 иллюстрирует вариант осуществления кодера; иFig. 24 illustrates an encoder embodiment; And

Фиг. 22c иллюстрирует вариант осуществления декодера.Fig. 22c illustrates an embodiment of a decoder.

Фиг. 8 иллюстрирует аудиодекодер для декодирования кодированного аудиосигнала, содержащего многоканальные аудиоданные, содержащие данные для двух или более аудиоканалов и информацию относительно объединенно кодированных параметров масштабирования. Декодер содержит декодер 220 параметров масштабирования и процессор 210, 212, 213 сигналов, проиллюстрированные на фиг. 8a в качестве одного элемента. Декодер 220 параметров масштабирования принимает информацию относительно объединенно кодированной первой группы и второй группы параметров масштабирования, причем, предпочтительно, первая группа параметров масштабирования представляет собой средние параметры масштабирования, и вторая группа параметров масштабирования представляет собой боковые параметры масштабирования. Предпочтительно, процессор сигналов принимает первое канальное представление многоканальных аудиоданных и второе канальное представление многоканальных аудиоданных и применяет первый набор параметров масштабирования к первому канальному представлению, извлекаемому из многоканальных аудиоданных, и применяет второй набор параметров масштабирования к второму канальному представлению, извлекаемому из многоканальных аудиоданных, с тем чтобы получать первый канал и второй канал декодированного аудиосигнала в выводе блока 210, 212, 213 по фиг. 8a. Предпочтительно, объединенно кодированные параметры масштабирования содержат информацию относительно первой группы объединенно кодированных параметров масштабирования, такую как средние параметры масштабирования, и информацию относительно второй группы объединенно кодированных параметров масштабирования, такую как боковые параметры масштабирования. Кроме того, декодер 220 параметров масштабирования выполнен с возможностью комбинирования объединенно кодированного параметра масштабирования первой группы и объединенно кодированного параметра масштабирования второй группы с использованием первого правила комбинирования для получения параметра масштабирования из первого набора параметров масштабирования, и комбинирования тех же обоих из объединенно кодированных параметров масштабирования первой и второй групп с использованием второго правила комбинирования, отличного от первого правила комбинирования, для получения параметра масштабирования из второго набора параметров масштабирования. Таким образом, декодер 220 параметров масштабирования применяет два различных правила комбинирования.Fig. 8 illustrates an audio decoder for decoding a coded audio signal containing multi-channel audio data comprising data for two or more audio channels and information regarding the combined coded scaling parameters. The decoder includes a scaling parameter decoder 220 and a signal processor 210, 212, 213, illustrated in FIG. 8a as one element. The scaling parameter decoder 220 receives information regarding the jointly encoded first group and the second group of scaling parameters, where preferably the first group of scaling parameters represents the middle scaling parameters and the second group of scaling parameters represents the side scaling parameters. Preferably, the signal processor receives a first channel representation of the multi-channel audio data and a second channel representation of the multi-channel audio data, and applies a first set of scaling parameters to the first channel representation extracted from the multi-channel audio data, and applies a second set of scaling parameters to the second channel representation extracted from the multi-channel audio data, so as to to obtain the first channel and the second channel of the decoded audio signal at the output of the block 210, 212, 213 of FIG. 8a. Preferably, the jointly coded zoom parameters include information regarding a first group of jointly coded zoom parameters, such as average zoom parameters, and information regarding a second group of jointly coded zoom parameters, such as side zoom parameters. In addition, the scaling parameter decoder 220 is configured to combine the jointly encoded scaling parameter of the first group and the jointly encoded scaling parameter of the second group using a first combination rule to obtain a scaling parameter from the first set of scaling parameters, and combining the same both of the jointly encoded scaling parameters of the first and a second group using a second combination rule different from the first combination rule to obtain a scaling parameter from the second set of scaling parameters. Thus, the scaling parameter decoder 220 applies two different combining rules.

В предпочтительном варианте осуществления, два различных правила комбинирования представляют собой правило комбинирования в форме сложения или суммы, с одной стороны, и правило комбинирования в форме вычитания или разности, с другой стороны. Тем не менее, в других вариантах осуществления, первое правило комбинирования может представлять собой правило комбинирования в форме умножения, и второе правило комбинирования может представлять собой правило комбинирования в форме частного или деления. Таким образом, все другие пары правил комбинирования являются полезными также в зависимости от представления соответствующих параметров масштабирования первой группы и второй группы или первого набора и второго набора параметров масштабирования.In a preferred embodiment, the two different combination rules are a combination rule in the form of an addition or sum on the one hand, and a combination rule in the form of a subtraction or difference on the other hand. However, in other embodiments, the first combination rule may be a combination rule in the form of a multiplication, and the second combination rule may be a combination rule in the form of a quotient or division. Thus, all other combination rule pairs are also useful depending on the representation of the corresponding scaling parameters of the first group and the second group or the first set and the second set of scaling parameters.

Фиг. 8b иллюстрирует соответствующий аудиокодер для кодирования многоканального аудиосигнала, содержащего два или более каналов. Аудиокодер содержит модуль 140 вычисления параметров масштабирования, процессор 120 сигналов и модуль 1480, 1500 формирования кодированных сигналов. Модуль 140 вычисления параметров масштабирования выполнен с возможностью вычисления первой группы объединенно кодированных параметров масштабирования и второй группы объединенно кодированных параметров масштабирования из первого набора параметров масштабирования для первого канала многоканального аудиосигнала и из второго набора параметров масштабирования для второго канала многоканального аудиосигнала. Кроме того, процессор сигналов выполнен с возможностью применения первого набора параметров масштабирования к первому каналу многоканального аудиосигнала и применения второго набора параметров масштабирования ко второму каналу многоканального аудиосигнала для извлечения кодированных многоканальных аудиоданных. Многоканальные аудиоданные извлекаются из масштабированных первых и вторых каналов, и многоканальные аудиоданные используются посредством модуля 1480, 1500 формирования кодированных сигналов вместе с информацией относительно первой и второй группы объединенно кодированных параметров масштабирования для получения кодированного многоканального аудиосигнала в выводе блока 1500 на фиг. 8b.Fig. 8b illustrates a corresponding audio encoder for encoding a multi-channel audio signal containing two or more channels. The audio encoder contains a module 140 for calculating scaling parameters, a signal processor 120 and a module 1480, 1500 for generating encoded signals. The scaling parameter calculation unit 140 is configured to calculate a first group of jointly encoded scaling parameters and a second group of jointly encoded scaling parameters from a first set of scaling parameters for a first channel of a multi-channel audio signal and from a second set of scaling parameters for a second channel of a multi-channel audio signal. In addition, the signal processor is configured to apply a first set of scaling parameters to a first channel of the multi-channel audio signal and apply a second set of scaling parameters to a second channel of the multi-channel audio signal to extract encoded multi-channel audio data. Multi-channel audio data is extracted from the scaled first and second channels, and the multi-channel audio data is used by coded signal generation module 1480, 1500 along with information regarding the first and second group of combined coded scaling parameters to produce a coded multi-channel audio signal at the output of block 1500 in FIG. 8b.

Фиг. 1 иллюстрирует дополнительную реализацию декодера по фиг. 8a. В частности, поток битов вводится в процессор 210 сигналов, который выполняет, типично, энтропийное декодирование и обратное квантование вместе с процедурами на основе интеллектуального заполнения интервалов отсутствия сигнала (процедурами IGF) и обратной стереообработкой масштабированных или отбеленных каналов. Вывод блока 210 представляет собой масштабированные или отбеленные декодированные левый и правый либо, в общем, несколько декодированных каналов многоканального сигнала. Поток битов содержит вспомогательные информационные биты для параметров масштабирования для левого и правого в случае раздельного кодирования и вспомогательные информационные биты для масштабированных объединенно кодированных параметров масштабирования, проиллюстрированных в качестве M-, S-параметров масштабирования на фиг. 1. Эти данные вводятся в декодер 220 параметров масштабирования или коэффициентов масштабирования, который в выводе, формирует декодированные левые коэффициенты масштабирования и декодированные правые коэффициенты масштабирования, которые затем применяются в блоке 212, 230 формирования спектра, чтобы в конечном счете получать предпочтительно спектр MDCT для левого и правого, который затем может быть преобразован во временную область с использованием определенной обратной операции MDCT.Fig. 1 illustrates an additional implementation of the decoder of FIG. 8a. Specifically, the bit stream is input to signal processor 210, which typically performs entropy decoding and inverse quantization along with intelligent gap filling (IGF) routines and inverse stereo processing of scaled or whitened channels. The output of block 210 represents the scaled or whitened left and right decoded or, in general, several decoded channels of a multi-channel signal. The bit stream contains auxiliary information bits for left and right scaling parameters in the case of separate encoding and auxiliary information bits for scaled jointly encoded scaling parameters, illustrated as M, S scaling parameters in FIG. 1. This data is input to a scaling parameter or scaling factor decoder 220, which outputs decoded left scaling factors and decoded right scaling factors, which are then applied to spectrum generation block 212, 230 to ultimately obtain the preferred MDCT spectrum for the left and right, which can then be converted to the time domain using a specific inverse MDCT operation.

Соответствующая реализация на стороне кодера приводится на фиг. 2. Фиг. 2 начинается со спектра MDCT, имеющего левый и правый канал, которые вводятся в модуль 120a формирования спектра, и вывод модуля 120a формирования спектра вводится в процессор 120b, который, например, выполняет операции стереообработки, интеллектуального заполнения интервалов отсутствия сигнала на стороне кодера и соответствующие операции квантования и (энтропийного) кодирования. Таким образом, блоки 120a, 120b вместе представляют процессор 120 сигналов по фиг. 8b. Кроме того, для целей вычисления коэффициентов масштабирования, которое выполняется в блоке 120b для вычисления коэффициентов масштабирования при SNS (формировании спектрального шума), также предусмотрены спектр MDST, и спектр MDST вместе со спектром MDCT перенаправляется в модуль 110a вычисления спектра мощности. В качестве альтернативы, модуль 110a вычисления спектра мощности может работать непосредственно для входного сигнала без процедуры вычисления спектра MDCT или MDST. Другой способ, например, заключается в том, чтобы вычислять спектр мощности из DFT-операции, а не из операции MDCT и MDST. Кроме того, коэффициенты масштабирования вычисляются посредством модуля 140 вычисления параметров масштабирования, который проиллюстрирован на фиг. 2 в качестве блока кодирования с квантованием коэффициентов масштабирования. В частности, блок 140 выводит, в зависимости от подобия между первым и вторым каналом, отдельно кодированные коэффициенты масштабирования для левого и правого либо объединенно кодированные коэффициенты масштабирования для M и S. Это проиллюстрировано на фиг. 2 справа от блока 140. Таким образом, в этой реализации, блок 110b вычисляет коэффициенты масштабирования для левого и правого, и блок 140 затем определяет то, лучше или хуже раздельное кодирование, т.е. кодирование для левых и правых коэффициентов масштабирования, чем кодирование объединенно кодированных коэффициентов масштабирования, т.е. M- и S-коэффициентов масштабирования, извлекаемых из отдельных коэффициентов масштабирования, посредством двух различных правил комбинирования, таких как сложение, с одной стороны, и вычитание, с другой стороны.The corresponding implementation on the encoder side is shown in FIG. 2. Fig. 2 starts with an MDCT spectrum having a left and a right channel, which are input to the spectrum generation module 120a, and the output of the spectrum generation module 120a is input to the processor 120b, which, for example, performs stereo processing operations, smart filling of the encoder-side signal blank intervals, and related operations. quantization and (entropy) coding. Thus, blocks 120a, 120b together represent the signal processor 120 of FIG. 8b. In addition, for the purpose of calculating scaling factors, which is performed in the SNS (spectral noise generation) scaling factor calculation block 120b, an MDST spectrum is also provided, and the MDST spectrum together with the MDCT spectrum is forwarded to the power spectrum calculating unit 110a. Alternatively, the power spectrum calculation module 110a may operate directly on the input signal without the MDCT or MDST spectrum calculation procedure. Another way, for example, is to calculate the power spectrum from the DFT operation rather than from the MDCT and MDST operation. In addition, the scaling factors are calculated by the scaling parameter calculation unit 140, which is illustrated in FIG. 2 as a coding block with scale factor quantization. In particular, block 140 outputs, depending on the similarity between the first and second channel, separately coded scale factors for left and right or jointly coded scale factors for M and S. This is illustrated in FIG. 2 to the right of block 140. Thus, in this implementation, block 110b calculates the scaling factors for left and right, and block 140 then determines whether separate encoding is better or worse, i.e. encoding for left and right scaling factors than encoding jointly encoded scaling factors, i.e. M- and S-scaling factors extracted from individual scaling factors by means of two different combination rules, such as addition on the one hand and subtraction on the other hand.

Результат блока 140 представляет собой вспомогательные информационные биты для L, R или M, S, которые, вместе с результатом блока 120b, вводятся в выходной поток битов, проиллюстрированный посредством фиг. 2.The result of block 140 is the auxiliary information bits for L, R or M, S, which, together with the result of block 120b, are input into the output bit stream illustrated by FIG. 2.

Фиг. 3a иллюстрирует предпочтительную реализацию кодера по фиг. 2 или по фиг. 8b. Первый канал вводится в блок 1100a, который определяет отдельные параметры масштабирования для первого канала, т.е. для канала L. Кроме того, второй канал вводится в блок 1100b, который определяет отдельные параметры масштабирования для второго канала, т.е. для R. Затем параметры масштабирования для левого канала и параметры масштабирования для правого канала, соответственно, дискретизируются с понижением посредством модуля 130a понижающей дискретизации для первого канала и модуля 130b понижающей дискретизации для второго канала. Результаты представляют собой дискретизированные с понижением параметры (DL) для левого канала и дискретизированные с понижением параметры для правого канала (DR).Fig. 3a illustrates a preferred implementation of the encoder of FIG. 2 or according to FIG. 8b. The first channel is input to block 1100a, which determines individual scaling parameters for the first channel, i.e. for channel L. In addition, the second channel is input to block 1100b, which determines separate scaling parameters for the second channel, i.e. for R. Then, the scaling parameters for the left channel and the scaling parameters for the right channel are respectively downsampled by the downsampling unit 130a for the first channel and the downsampling unit 130b for the second channel. The results are downsampled parameters (DL) for the left channel and downsampled parameters for the right channel (DR).

Затем эти данные DL и DR вводятся в модуль 1200 определения объединенных параметров масштабирования. Модуль 1200 определения объединенных параметров масштабирования формирует первую группу объединенно кодированных параметров масштабирования, таких как средние или M-параметры масштабирования и вторую группу объединенно кодированных параметров масштабирования, таких как боковые или S-параметры масштабирования. Обе группы вводятся в соответствующие модули 140a, 140b векторного квантования для получения квантованных значений, которые затем передаются в конечный энтропийный кодер 140c и должны кодироваться для получения информации в отношении объединенно кодированных параметров масштабирования.These DL and DR data are then input to the combined scaling parameter determination module 1200 . The combined scaling parameters determining module 1200 generates a first group of jointly coded scaling parameters, such as average or M-scale parameters, and a second group of jointly coded scaling parameters, such as side or S-scale parameters. Both groups are input to respective vector quantization modules 140a, 140b to produce quantized values, which are then passed to the final entropy encoder 140c and must be encoded to obtain information regarding the jointly encoded scaling parameters.

Энтропийный кодер 140c может быть реализован с возможностью выполнения алгоритма арифметического энтропийного кодирования или алгоритма энтропийного кодирования с помощью одномерных либо с помощью одно- или более мерных кодовых таблиц Хаффмана.Entropy encoder 140c may be implemented to perform an arithmetic entropy encoding algorithm or an entropy encoding algorithm using one-dimensional or one- or more-dimensional Huffman code tables.

Другая реализация кодера проиллюстрирована на фиг. 3b, в которой понижающая дискретизация не выполняется с отдельными параметрами масштабирования, к примеру, с левым и правым, как проиллюстрировано в 130a, 130b на фиг. 3a. Вместо этого, порядок операций определения объединенных параметров масштабирования и последующей понижающей дискретизации посредством соответствующих модулей 130a, 130b понижающей дискретизации изменяется. То, используется реализация по фиг. 3a или по фиг. 3b, зависит от конкретной реализации, причем реализация по фиг. 3a является предпочтительной, поскольку определение 1200 объединенных параметров масштабирования уже выполняется для дискретизированных с понижением параметров масштабирования, т.е. два различных правила комбинирования, выполняемые посредством модуля 140 вычисления параметров масштабирования, типично выполняются для меньшего числа вводов по сравнению со случаем на фиг. 3b.Another encoder implementation is illustrated in FIG. 3b, in which downsampling is not performed on separate scaling parameters, eg left and right, as illustrated at 130a, 130b in FIG. 3a. Instead, the order of operations of determining the combined scaling parameters and subsequent downsampling by the respective downsampling units 130a, 130b is changed. Then, the implementation according to FIG. 3a or according to FIG. 3b depends on the specific implementation, with the implementation of FIG. 3a is preferred since the determination of 1200 combined scaling parameters is already done for the downsampled scaling parameters, i.e. the two different combining rules performed by the scaling parameter calculation module 140 are typically performed for fewer inputs compared to the case in FIG. 3b.

Фиг. 4a иллюстрирует реализацию декодера для декодирования кодированного аудиосигнала, имеющего многоканальные аудиоданные, содержащие данные для двух или более аудиоканалов и информацию относительно объединенно кодированных параметров масштабирования. Тем не менее, декодер на фиг. 4a представляет собой только часть целого декодера по фиг. 8a, поскольку только часть процессора сигналов, и, в частности, соответствующие модули 212a, 212b канального масштабирования проиллюстрированы на фиг. 4a. Относительно декодера 220 параметров масштабирования, этот элемент содержит энтропийный декодер 2200, осуществляющий в обратном порядке процедуру, выполняемую посредством соответствующего блока 140c на фиг. 3a. Кроме того, энтропийный декодер выводит квантованные объединенно кодированные параметры масштабирования, такие как квантованные M-параметры масштабирования и квантованные S-параметры масштабирования. Соответствующие группы параметров масштабирования вводятся в модули 2202 и 2204 деквантования для получения деквантованных значений для M и S. Эти деквантованные значения затем вводятся в модуль 2206 определения отдельных параметров масштабирования, который выводит параметры масштабирования для левого и правого, т.е. отдельные параметры масштабирования. Эти соответствующие параметры масштабирования вводятся в интерполяторы 222a, 222b, чтобы получать интерполированные параметры масштабирования для левого (IL) и интерполированные параметры масштабирования для правого (IR). Эти данные вводятся в модуль 212a и 212b канального масштабирования, соответственно. Кроме того, модули канального масштабирования, соответственно, например, принимают первое канальное представление после полной процедуры, выполненной посредством блока 210 на фиг. 1. Соответственно, модуль 212b канального масштабирования также получает свое соответствующее второе канальное представление в качестве вывода посредством блока 210 на фиг. 1. Затем конечное канальное масштабирование или «формирование спектра», как оно называется на фиг. 1, осуществляется для получения спектрального канала определенной формы для левого и правого, который проиллюстрирован в виде «спектра MDCT» на фиг. 1. После этого, конечное преобразование из частотной области во временную область для каждого канала, проиллюстрированное на 240a, 240b, может выполняться для получения в конечном итоге декодированного первого канала и декодированного второго канала многоканального аудиосигнала в представлении во временной области.Fig. 4a illustrates an implementation of a decoder for decoding a coded audio signal having multi-channel audio data comprising data for two or more audio channels and information regarding the jointly coded scaling parameters. However, the decoder in FIG. 4a represents only a part of the whole decoder of FIG. 8a, since only part of the signal processor, and in particular the corresponding channel scaling modules 212a, 212b, are illustrated in FIG. 4a. With respect to the scaling parameter decoder 220, this element includes an entropy decoder 2200 that reverses the procedure performed by the corresponding block 140c in FIG. 3a. In addition, the entropy decoder outputs quantized jointly encoded scaling parameters such as quantized M scaling parameters and quantized S scaling parameters. The corresponding groups of scaling parameters are input to dequantization modules 2202 and 2204 to obtain dequantized values for M and S. These dequantized values are then input to individual scaling parameter determination module 2206, which outputs the scaling parameters for left and right, i.e. individual scaling options. These respective scaling parameters are input to interpolators 222a, 222b to obtain interpolated left (IL) scaling parameters and interpolated right (IR) scaling parameters. This data is input to channel scaling module 212a and 212b, respectively. In addition, the channel scaling modules respectively, for example, receive the first channel representation after the complete procedure performed by block 210 in FIG. 1. Accordingly, the channel scaler 212b also receives its corresponding second channel representation as an output via block 210 in FIG. 1. Then the final channel scaling or “spectrum shaping” as it is called in FIG. 1 is carried out to obtain a spectral channel of a certain shape for left and right, which is illustrated as an “MDCT spectrum” in FIG. 1. Thereafter, the final frequency domain to time domain conversion for each channel illustrated at 240a, 240b may be performed to ultimately obtain a decoded first channel and a decoded second channel of the multi-channel audio signal in a time domain representation.

В частности, декодер 220 параметров масштабирования, проиллюстрированный в левой части по фиг. 4a, может включаться в аудиодекодер, как показано на фиг. 1 либо как совместно показано на фиг. 4a, но также может включаться в качестве локального декодера в кодер, как показано относительно фиг. 5, явно показывающего локальный декодер 220 параметров масштабирования в выводе кодера 140 параметров масштабирования.Specifically, the scaling parameter decoder 220 illustrated on the left side of FIG. 4a may be included in an audio decoder as shown in FIG. 1 or as collectively shown in FIG. 4a, but may also be included as a local decoder in the encoder, as shown with respect to FIG. 5, explicitly showing the local scaling parameter decoder 220 in the output of the scaling parameter encoder 140.

Фиг. 4b иллюстрирует дополнительную реализацию, в которой по сравнению с фиг. 4a изменён порядок интерполяции и определения параметров масштабирования для определения отдельных параметров масштабирования. В частности, интерполяция осуществляется с объединенно кодированными параметрами M и S масштабирования с использованием интерполяторов 222a, 222b по фиг. 4b, и интерполированные объединенно кодированные параметры масштабирования, такие как IM и IS, вводятся в модуль 2206 определения отдельных параметров масштабирования. Затем вывод блока 2206 представляют собой дискретизированные с повышением параметры масштабирования, т.е. параметры масштабирования, например, для каждой из 64 полос частот, проиллюстрированных на фиг. 21.Fig. 4b illustrates an additional implementation in which, compared to FIG. 4a, the order of interpolation and determination of scaling parameters has been changed to determine individual scaling parameters. In particular, interpolation is performed with the combined encoded scaling parameters M and S using interpolators 222a, 222b of FIG. 4b, and the interpolated jointly encoded scaling parameters such as IM and IS are input to the individual scaling parameter determination module 2206. The output of block 2206 then represents the upsampled scaling parameters, i.e. scaling parameters, for example, for each of the 64 frequency bands illustrated in FIG. 21.

Фиг. 5 иллюстрирует дополнительную предпочтительную реализацию кодера по фиг. 8b, по фиг. 2 либо по фиг. 3a, фиг. 3b. Первый канал и второй канал вводятся в факультативный преобразователь из временной области в частотную область, к примеру, в 100a, 100b по фиг. 5. Спектральное представление, выводимое посредством блоков 100a, 100b, вводится в модуль 120a канального масштабирования, который отдельно масштабирует спектральное представление для левого и правого канала. Таким образом, модуль 120a канального масштабирования выполняет операцию формирования спектра, проиллюстрированную в 120a по фиг. 2. Вывод модуля канального масштабирования вводится в процессор 120b каналов по фиг. 5, и обработанный канальный вывод блока 120b вводится в модуль 1480, 1500 формирования кодированных сигналов для получения кодированного аудиосигнала.Fig. 5 illustrates a further preferred implementation of the encoder of FIG. 8b, according to FIG. 2 or according to FIG. 3a, fig. 3b. The first channel and the second channel are input to an optional time domain to frequency domain converter, for example, 100a, 100b of FIG. 5. The spectral representation output by the blocks 100a, 100b is input to the channel scaling unit 120a, which separately scales the spectral representation for the left and right channels. Thus, the channel scaling unit 120a performs the spectrum shaping operation illustrated at 120a of FIG. 2. The output of the channel scaler is input to the channel processor 120b of FIG. 5, and the processed channel output of the block 120b is input to the coded signal generating unit 1480, 1500 to obtain a coded audio signal.

Кроме того, для целей определения отдельно или объединенно кодированных параметров масштабирования предусмотрен модуль 1400 вычисления подобий, который принимает, в качестве ввода, первый канал и второй канал непосредственно во временной области. В качестве альтернативы, модуль вычисления подобий может принимать первый канал и второй канал в выводе преобразователей 100a, 100b из временной области в частотную область, т.е. в спектральном представлении.In addition, for the purpose of determining separately or jointly encoded scaling parameters, a similarity calculation module 1400 is provided, which takes as input the first channel and the second channel directly in the time domain. Alternatively, the similarity calculation module may receive the first channel and the second channel at the output of the time domain to frequency domain converters 100a, 100b, i.e. in spectral representation.

Хотя относительно фиг. 6 следует подчеркнуть, что подобие между двумя каналами вычисляется на основе второй группы объединенно кодированных параметров масштабирования, т.е. на основе боковых параметров масштабирования, следует отметить, что это подобие также может вычисляться на основе каналов временной области или спектральной области непосредственно без явного вычисления объединенно кодированных параметров масштабирования. В качестве альтернативы, подобие также может определяться на основе первой группы объединенно кодированных параметров масштабирования, т.е. на основе средних параметров масштабирования. В частности, когда энергия боковых параметров масштабирования ниже порогового значения, затем определяется то, что объединенное кодирование может выполняться. Аналогично, например, энергия средних параметров масштабирования в кадре также может измеряться, и определение для объединенного кодирования может выполняться, когда энергия средних параметров масштабирования больше другого порогового значения. Таким образом, может быть реализовано много различных способов определения подобия между первым каналом и вторым каналом для принятия решения по объединенному кодированию параметров масштабирования или отдельному кодированию параметров масштабирования. Тем не менее, следует отметить, что определение для объединенного или отдельного кодирования параметров масштабирования не обязательно должно быть таким же, что и определение объединенного стереокодирования для каналов, т.е. если два канала кодируются объединенно с использованием среднего/бокового представления или кодируются отдельно в L-, R-представлении. Определение объединенного кодирования параметров масштабирования выполняется независимо от определения стереообработки для фактических каналов, поскольку определение любого вида стереообработки, выполняемой в блоке 120b на фиг. 2, осуществляется исключительно после масштабирования или формирования спектра с использованием коэффициентов масштабирования для среднего и бокового. В частности, как проиллюстрировано на фиг. 2, блок 140 может определять объединенное кодирование. Таким образом, как проиллюстрировано посредством стрелки на фиг. 2, указывающей на блок 140, коэффициенты масштабирования для M и S могут возникать в этом блоке. В случае применения локального декодера 220 параметров масштабирования в кодере по фиг. 5, в таком случае фактически используемые параметры масштабирования для формирования спектра, хотя и представляют собой параметры масштабирования для левого и параметры масштабирования для правого, тем не менее, извлекаются из кодированных и декодированных параметров масштабирования для среднего и бокового.Although relative to Fig. 6, it should be emphasized that the similarity between two channels is calculated based on the second group of jointly encoded scaling parameters, i.e. based on the side scaling parameters, it should be noted that this similarity can also be calculated based on the time domain or spectral domain channels directly without explicitly calculating the joint encoded scaling parameters. Alternatively, the similarity may also be determined based on the first group of jointly coded scaling parameters, i.e. based on average scaling parameters. In particular, when the energy of the side scaling parameters is below a threshold value, it is then determined that joint encoding can be performed. Likewise, for example, the energy of the average scaling parameters in a frame may also be measured, and determination for merged coding may be made when the energy of the average scaling parameters is greater than another threshold value. Thus, many different methods for determining the similarity between the first channel and the second channel can be implemented to decide whether to encode the scaling parameters together or encode the scaling parameters separately. However, it should be noted that the definition of the combined or separate encoding scaling parameters need not be the same as the definition of the combined stereo coding for the channels, i.e. if the two channels are encoded jointly using the middle/side representation or encoded separately in the L-, R-representation. The determination of the combined encoding of scaling parameters is performed independently of the determination of the stereo processing for the actual channels, since the determination of any kind of stereo processing performed in block 120b in FIG. 2, is carried out exclusively after scaling or shaping the spectrum using scaling factors for the middle and side. In particular, as illustrated in FIG. 2, block 140 may determine combined encoding. Thus, as illustrated by the arrow in FIG. 2 pointing to block 140, scaling factors for M and S may occur in that block. In the case of using a local decoder 220 of scaling parameters in the encoder of FIG. 5, in such a case, the actual scaling parameters used to generate the spectrum, although being the left scaling parameters and the right scaling parameters, are nevertheless derived from the encoded and decoded mid and side scaling parameters.

Обращаясь к фиг. 5, предусмотрен модуль 1402 принятия решений по выбору режима. Модуль 1402 принятия решений по выбору режима принимает вывод модуля 1400 вычисления подобий и принимает решение по отдельному кодированию параметров масштабирования, когда каналы не являются аналогичными в достаточной степени. Тем не менее, если определено, что каналы являются аналогичными, затем объединенное кодирование параметров масштабирования определяется посредством блока 1402, и информация в отношении того, применяется ли отдельное или измененное объединенное кодирование параметров масштабирования, передается в служебных сигналах посредством соответствующей вспомогательной информации или флага 1403, проиллюстрированного на фиг. 5, который передаётся из блока 1402 в модуль 1480, 1500 формирования кодированных сигналов. Кроме того, кодер содержит кодер 140 параметров масштабирования, который принимает параметры масштабирования для первого канала и параметры масштабирования для второго канала и кодирует параметры масштабирования отдельно или объединенно, что управляется посредством модуля 1402 принятия решений по выбору режима. Кодер 140 параметров масштабирования может, в одном варианте осуществления, выводить параметры масштабирования для первого и второго канала, как указано посредством пунктирных линий, так что модуль 120a канального масштабирования выполняет масштабирование с соответствующими параметрами масштабирования первого и второго канала. Тем не менее, предпочтительно применять локальный декодер 220 параметров масштабирования в кодере таким образом, что канальное масштабирование осуществляется с локально кодированными и декодированными параметрами масштабирования, так что деквантованные параметры масштабирования применяются для канального масштабирования в кодере. Это имеет такое преимущество, что совершенно одинаковая ситуация реализуется в модуле канального масштабирования в кодере и декодере по меньшей мере относительно используемых параметров масштабирования для канального масштабирования или формирования спектра.Referring to FIG. 5, a mode selection decision module 1402 is provided. The mode decision module 1402 receives the output of the similarity calculation module 1400 and decides to encode scaling parameters separately when the channels are not sufficiently similar. However, if it is determined that the channels are similar, then the combined scaling parameter encoding is determined through block 1402, and information regarding whether separate or modified combined scaling parameter encoding is applied is signaled through corresponding auxiliary information or flag 1403. illustrated in FIG. 5, which is transmitted from block 1402 to coded signal generation module 1480, 1500. In addition, the encoder includes a scaling parameter encoder 140, which receives scaling parameters for the first channel and scaling parameters for the second channel, and encodes the scaling parameters separately or combined, which is controlled by the mode decision module 1402. The scaling parameter encoder 140 may, in one embodiment, output scaling parameters for the first and second channel, as indicated by the dotted lines, such that the channel scaling module 120a performs scaling with the corresponding scaling parameters of the first and second channel. However, it is preferable to employ a local scaling parameter decoder 220 at the encoder such that channel scaling is performed with locally encoded and decoded scaling parameters such that the dequantized scaling parameters are applied to channel scaling at the encoder. This has the advantage that exactly the same situation is realized in the channel scaling module in the encoder and decoder, at least with respect to the scaling parameters used for channel scaling or spectrum shaping.

Фиг. 6 иллюстрирует дополнительный предпочтительный вариант осуществления настоящего изобретения относительно аудиокодера. Предусмотрен модуль 100 вычисления спектра MDCT, который, например, может представлять собой преобразователь из временной области в частотную область, применяющий алгоритм MDCT. Кроме того, предусмотрен модуль 110a вычисления спектра мощности, как проиллюстрировано на фиг. 2. Отдельные параметры масштабирования вычисляются посредством соответствующего модуля 1100 вычисления и, для целей вычисления объединенно кодированных параметров масштабирования, блока 1200a сложения и блока 1200b вычитания. После этого, для целей определения подобия, выполняется вычисление энергии в расчете на кадр с боковыми параметрами, т.е. со второй группой объединенно кодированных параметров масштабирования. В блоке 1406, выполняется сравнение с пороговым значением, и этот блок, аналогичный модулю 1402 принятия решений по выбору режима для кадра по фиг. 5, выводит флаг режима или стереофлаг для соответствующего кадра. Кроме того, информация передаётся в управляемый кодер, который выполняет отдельное или объединенное кодирование в текущем кадре. С этой целью, управляемый кодер 140 принимает параметры масштабирования, вычисленные посредством блока 1100, т.е. отдельные параметры масштабирования и, кроме того, принимает объединенно кодированные параметры масштабирования, т.е. параметры масштабирования, определенные посредством блока 1200a и 1200b.Fig. 6 illustrates a further preferred embodiment of the present invention with respect to an audio encoder. An MDCT spectrum calculation module 100 is provided, which, for example, may be a time domain to frequency domain converter applying an MDCT algorithm. In addition, a power spectrum calculation unit 110a is provided, as illustrated in FIG. 2. The individual scaling parameters are calculated by a corresponding calculation module 1100 and, for the purposes of calculating the jointly encoded scaling parameters, an addition block 1200a and a subtraction block 1200b. After this, for the purpose of determining similarity, the energy calculation is performed per frame with lateral parameters, i.e. with a second group of jointly coded scaling parameters. At block 1406, a comparison with a threshold value is made, and this block, similar to frame mode decision module 1402 of FIG. 5, outputs the mode flag or stereo flag for the corresponding frame. In addition, the information is passed to a managed encoder, which performs individual or combined encoding on the current frame. To this end, the controlled encoder 140 receives the scaling parameters calculated by block 1100, i.e. separate scaling parameters and, in addition, receives jointly encoded scaling parameters, i.e. scaling parameters determined by block 1200a and 1200b.

Блок 140 предпочтительно формирует нулевой флаг для кадра, когда блок 140 определяет то, что все боковые параметры кадра квантуются до 0. Этот результат должен возникать, когда первый и второй канал находятся очень близко друг к другу, и разности между каналами и в силу этого разности между коэффициентами масштабирования являются такими, что эти разности меньше наименьшего порогового значения квантования, применяемого модулем квантования, включенным в блок 140. Блок 140 выводит информацию относительно объединенно кодированных или отдельно кодированных параметров масштабирования для соответствующего кадра.Block 140 preferably generates a zero flag for a frame when block 140 determines that all side parameters of the frame are quantized to 0. This result should occur when the first and second channels are very close to each other, and the differences between the channels and therefore the differences between the scale factors are such that the differences are less than the smallest quantization threshold applied by the quantization module included in block 140. Block 140 outputs information regarding jointly coded or separately coded scaling parameters for the corresponding frame.

Фиг. 9a иллюстрирует устройство квантования аудиоданных для квантования множества информационных аудиоэлементов. Устройство квантования аудиоданных содержит модуль 141, 143 векторного квантования первой ступени для квантования множества информационных аудиоэлементов, таких как коэффициенты масштабирования или параметры масштабирования либо спектральные значения и т.д., чтобы определять результат 146 векторного квантования первой ступени. Кроме того, блок 141, 143 формирует множество промежуточных квантованных элементов, соответствующих результату векторного квантования первой ступени. Промежуточные квантованные элементы, например, представляют собой значения, ассоциированные с результатом первой ступени. Когда результат первой ступени идентифицирует определенную таблицу кодирования, например, с 16 определенных (квантованных) значений, в таком случае промежуточные квантованные элементы представляют собой 16 значений, ассоциированных с векторным индексом таблицы кодирования, представляющим собой результат 146 первой ступени. Промежуточные квантованные элементы и информационные аудиоэлементы во вводе в модуль 141, 143 векторного квантования первой ступени вводятся в модуль определения остаточных элементов для вычисления множества остаточных элементов из множества промежуточных квантованных элементов и множества информационных аудиоэлементов. Это, например, выполняется посредством вычисления разности для каждого элемента между исходным элементом и квантованным элементом. Остаточные элементы вводятся в модуль 145 векторного квантования второй ступени для квантования множества остаточных элементов для получения результата векторного квантования второй ступени. В таком случае, результат векторного квантования первой ступени в выводе блока 141, 143 и результата второй ступени в выводе блока 145 вместе представляет квантованное представление множества информационных аудиоэлементов, которое кодируется посредством факультативного модуля 1480, 1500 формирования кодированных сигналов, который выводит квантованные информационные аудиоэлементы, которые, в предпочтительном варианте осуществления, не только квантуются, но и дополнительно энтропийно кодируются.Fig. 9a illustrates an audio data quantization apparatus for quantizing a plurality of audio information elements. The audio data quantization apparatus includes a first stage vector quantization unit 141, 143 for quantizing a plurality of audio information elements such as scaling factors or scaling parameters or spectral values, etc., to determine a first stage vector quantization result 146. In addition, the block 141, 143 generates a plurality of intermediate quantized elements corresponding to the vector quantization result of the first stage. Intermediate quantized elements, for example, represent values associated with the result of the first stage. When the first stage result identifies a particular codebook with, for example, 16 specific (quantized) values, then the intermediate quantized elements are 16 values associated with the codebook vector index representing the first stage result 146. The intermediate quantized elements and audio information elements in the input to the first stage vector quantization unit 141, 143 are input to the residual element determination module to calculate a plurality of residual elements from the plurality of intermediate quantized elements and the plurality of audio information elements. This is, for example, done by calculating the difference for each element between the original element and the quantized element. The residual elements are input to the second stage vector quantization unit 145 to quantize a plurality of residual elements to obtain a second stage vector quantization result. In such a case, the first stage vector quantization result in the output of block 141, 143 and the second stage result in the output of block 145 together represent a quantized representation of a plurality of audio information elements, which is encoded by an optional encoded signal generation module 1480, 1500, which outputs the quantized audio information elements that , in the preferred embodiment, are not only quantized, but also entropy encoded.

Соответствующее устройство деквантования аудиоданных проиллюстрировано на фиг. 9b. Устройство деквантования аудиоданных содержит модуль 2220 векторного деквантования первой ступени для деквантования результата квантования первой ступени, включенного в квантованное множество информационных аудиоэлементов для получения множества промежуточных квантованных информационных аудиоэлементов. Кроме того, предусмотрен модуль 2260 векторного деквантования второй ступени, выполненный с возможностью деквантования результата векторного квантования второй ступени, включенного в квантованное множество информационных аудиоэлементов для получения множества остаточных элементов. Как промежуточные элементы из блока 2220, так и остаточные элементы из блока 2260 комбинируются модулем 2240 комбинирования для комбинирования множества промежуточных квантованных аудиоэлементов и множества остаточных элементов для получения деквантованного множества информационных аудиоэлементов. В частности, промежуточные квантованные элементы в выводе блока 2220 представляют собой отдельно кодированные параметры масштабирования, такие как для L и R или первую группу объединенно кодированных параметров масштабирования, например, для M, и остаточные элементы могут представлять объединенно кодированные боковые параметры масштабирования, например, т.е. вторую группу объединенно кодированных параметров масштабирования.A corresponding audio data dequantization apparatus is illustrated in FIG. 9b. The audio data dequantization apparatus includes a first stage vector dequantization unit 2220 for dequantizing a first stage quantization result included in a quantized plurality of audio information elements to obtain a plurality of intermediate quantized audio information elements. In addition, a second stage vector dequantization unit 2260 is provided, configured to dequantize a second stage vector quantization result included in the quantized set of audio information elements to obtain a plurality of residual elements. Both the intermediate elements from block 2220 and the residual elements from block 2260 are combined by a combining module 2240 to combine a plurality of intermediate quantized audio elements and a plurality of residual elements to obtain a dequantized plurality of audio information elements. In particular, the intermediate quantized elements in the output of block 2220 represent separately encoded scaling parameters, such as for L and R, or a first group of jointly encoded scaling parameters, such as for M, and the residual elements may represent jointly encoded side scaling parameters, such as t .e. a second group of jointly coded scaling parameters.

Фиг. 7a иллюстрирует предпочтительную реализацию модуля 141, 143 векторного квантования первой ступени по фиг. 9a. На этапе 701, векторное квантование первого поднабора параметров масштабирования выполняется для получения первого индекса квантования. На этапе 702 выполняется векторное квантование второго поднабора параметров масштабирования для получения второго индекса квантования. Кроме того, в зависимости от реализации, выполняется векторное квантование третьего поднабора параметров масштабирования, как проиллюстрировано в блоке 703, для получения третьего индекса квантования, который представляет собой факультативный индекс. Процедура на фиг. 7a применяется, когда возникает квантование с разбиением на уровни. В качестве примера, входной аудиосигнал разделяется на 64 полосы частот, проиллюстрированные на фиг. 21. 64 полосы частот дискретизируются с понижением до 16 полос частот/коэффициентов масштабирования, так что полная полоса частот покрывается 16 коэффициентами масштабирования. Эти 16 коэффициентов масштабирования квантуются посредством модуля 141, 143 векторного квантования первой ступени в режиме с разбиением на уровни, проиллюстрированном на фиг. 7a. Первые 8 коэффициентов масштабирования из 16 коэффициентов масштабирования по фиг. 21, которые получаются посредством понижающей дискретизации исходных 64 коэффициентов масштабирования, векторно квантуются посредством этапа 701 и в силу этого представляют первый поднабор параметров масштабирования. Оставшиеся 8 параметров масштабирования для 8 полос верхних частот представляют второй поднабор параметров масштабирования, которые векторно квантуются на этапе 702. В зависимости от реализации, отделение полного набора параметров масштабирования или информационных аудиоэлементов не обязательно должно выполняться точно в двух поднаборах, но также может выполняться в трех поднаборах либо в еще большем количестве поднаборов.Fig. 7a illustrates a preferred implementation of the first stage vector quantization module 141, 143 of FIG. 9a. At step 701, vector quantization of the first subset of scaling parameters is performed to obtain a first quantization index. At step 702, vector quantization of the second subset of scaling parameters is performed to obtain a second quantization index. In addition, depending on the implementation, vector quantization is performed on a third subset of scaling parameters, as illustrated in block 703, to obtain a third quantization index, which is an optional index. The procedure in FIG. 7a applies when layered quantization occurs. As an example, the input audio signal is divided into 64 frequency bands, illustrated in FIG. 21. The 64 frequency bands are downsampled to 16 frequency bands/scale factors, so that the full frequency band is covered by 16 scale factors. These 16 scaling factors are quantized by the first stage vector quantization unit 141, 143 in the layered mode illustrated in FIG. 7a. The first 8 scaling factors out of the 16 scaling factors in FIG. 21, which are obtained by downsampling the original 64 scaling factors, are vector quantized by step 701 and thereby represent a first subset of scaling parameters. The remaining 8 scaling parameters for the 8 high-pass bands represent a second subset of scaling parameters that are vector quantized at step 702. Depending on the implementation, separating the full set of scaling parameters or audio information elements need not be done in exactly two subsets, but may also be done in three subsets or even more subsets.

Независимо от того, сколько разбиений выполняется, индексы для каждого уровня вместе представляют результат первой ступени. Как пояснено относительно фиг. 14, эти индексы могут комбинироваться через модуль комбинирования индексов на фиг. 14 таким образом, чтобы иметь один индекс первой ступени. В качестве альтернативы, результат первой ступени может состоять из первого индекса и второго индекса и потенциального третьего индекса и вероятно еще большего количества индексов, которые не комбинируются, но которые энтропийно кодируются как есть.No matter how many splits are performed, the indices for each level together represent the result of the first stage. As explained with respect to FIG. 14, these indices can be combined through the index combining unit in FIG. 14 so as to have one first-stage index. Alternatively, the output of the first stage could consist of a first index and a second index and a potential third index and probably even more indexes that are not combined, but which are entropy encoded as is.

В дополнение к соответствующим индексам, формирующим результат первой ступени, этап 701, 702, 703 также предусматривает промежуточные параметры масштабирования, которые используются в блоке 704 для целей вычисления остаточных параметров масштабирования для кадра. Следовательно, этап 705, который выполняется, например, посредством блока 142 по фиг. 9a, приводит к остаточным параметрам масштабирования, которые затем обрабатываются посредством (алгебраического) векторного квантования, выполняемого посредством этапа 705, чтобы формировать результат второй ступени. Таким образом, результат первой ступени и результат второй ступени формируются для отдельных параметров L масштабирования, отдельных параметров R масштабирования и первой группы объединенных параметров M масштабирования. Тем не менее, как проиллюстрировано на фиг. 7b, (алгебраическое) векторное квантование второй группы объединенно кодированных параметров масштабирования или боковых параметров масштабирования выполняется только посредством этапа 706, который в предпочтительной реализации является одинаковым с этапом 705 и вновь выполняется посредством блока 142 по фиг. 9a.In addition to the corresponding indices forming the result of the first stage, step 701, 702, 703 also provides intermediate scaling parameters that are used in block 704 for the purpose of calculating residual scaling parameters for the frame. Therefore, step 705, which is performed, for example, by block 142 of FIG. 9a results in residual scaling parameters, which are then processed through (algebraic) vector quantization performed by step 705 to generate the result of the second stage. Thus, the first stage result and the second stage result are generated for the individual scaling parameters L, the individual scaling parameters R, and the first group of combined scaling parameters M. However, as illustrated in FIG. 7b, (algebraic) vector quantization of the second group of jointly encoded scaling parameters or side scaling parameters is performed only by step 706, which in the preferred implementation is the same as step 705 and again performed by block 142 of FIG. 9a.

В дополнительном варианте осуществления, информация относительно объединенно кодированных параметров масштабирования для одной из двух групп, к примеру, для второй группы, предпочтительно связанной с боковыми параметрами масштабирования, не содержит индексы квантования или другие биты квантования, а содержит только информацию, такую как флаг или один бит, указывающий, что все параметры масштабирования для второй группы являются нулевыми для части или кадра аудиосигнала либо имеют определенное значение, к примеру, небольшое значение. Эта информация определяется посредством кодера посредством анализа либо посредством другого средства и используется посредством декодера для синтеза второй группы параметров масштабирования на основе этой информации, к примеру, посредством формирования нулевых параметров масштабирования для временной части или кадра аудиосигнала либо посредством формирования параметров масштабирования с определенным значением, либо посредством формирования небольших случайных параметров масштабирования, все из которых меньше наименьшего или первой ступени квантования, либо используется декодером для вычисления первого и второго набора параметров масштабирования только с использованием первой группы объединенно кодированных параметров масштабирования. Следовательно, вместо выполнения ступени 705 на фиг. 7a, только флаг всех нулевых значений для второй группы объединенно кодированных параметров масштабирования записывается в качестве результата второй ступени. Вычисление в блоке 704 также может опускаться в этом случае и может заменяться посредством модуля решения для принятия решения в отношении того, должен ли активироваться и передаваться флаг всех нулевых значений. Этот модуль решения может управляться посредством пользовательского ввода, указывающего вообще пропуск кодирования параметров S, или информации скорости передачи битов, либо может фактически выполнять анализ остаточных элементов. Следовательно, для кадра, имеющего бит всех нулевых значений, декодер параметров масштабирования не выполняет комбинирование, а вычисляет второй набор параметров масштабирования только с использованием первой группы объединенно кодированных параметров масштабирования, к примеру, посредством деления кодированных параметров масштабирования первой группы на два или посредством взвешивания с использованием другого заданного значения.In a further embodiment, the information regarding the jointly coded scaling parameters for one of the two groups, for example, for the second group, preferably associated with the side scaling parameters, does not contain quantization indices or other quantization bits, but only information such as a flag or one a bit indicating that all scaling parameters for the second group are zero for a portion or frame of the audio signal, or have a specific value, such as a small value. This information is determined by the encoder through analysis or other means and is used by the decoder to synthesize a second group of scaling parameters based on this information, for example, by generating zero scaling parameters for a time portion or frame of the audio signal, or by generating scaling parameters with a specific value, or by generating small random scaling parameters, all of which are less than the smallest or first quantization stage, or is used by the decoder to calculate the first and second sets of scaling parameters using only the first group of jointly encoded scaling parameters. Therefore, instead of executing step 705 in FIG. 7a, only the all-zero flag for the second group of jointly encoded scaling parameters is recorded as the result of the second stage. The calculation in block 704 may also be omitted in this case and may be replaced by a decision module for deciding whether the all-zero flag should be activated and transmitted. This decision module may be controlled by user input to skip encoding of S parameters or bit rate information altogether, or may actually perform residual analysis. Therefore, for a frame having an all-zero bit, the scaling parameter decoder does not combine, but calculates a second set of scaling parameters using only the first group of combined encoded scaling parameters, for example, by dividing the first group encoded scaling parameters by two or by weighting with using a different set value.

В дополнительном варианте осуществления, вторая группа объединенно кодированных параметров масштабирования квантуется только с использованием второй ступени квантования двухступенчатого модуля квантования, который предпочтительно представляет собой ступень модуля квантования с переменной скоростью. В этом случае, предполагается, что первая ступень приводит в результате ко всем нулевым квантованным значениям, так что только вторая ступень является эффективной. Этот случай проиллюстрирован на фиг. 7b.In a further embodiment, the second group of concatenated encoded scaling parameters is quantized using only the second quantization stage of the two-stage quantizer, which is preferably a variable rate quantizer stage. In this case, it is assumed that the first stage results in all zero quantized values, so that only the second stage is effective. This case is illustrated in FIG. 7b.

В еще одном дополнительном варианте осуществления, только применяется первая ступень квантования, такая как 701, 702, 703, из двухступенчатого модуля квантования на фиг. 7a, который предпочтительно представляет собой ступень квантования с фиксированной скоростью, а вторая ступень 705 вообще не используется для временной части или кадра аудиосигнала. Этот случай соответствует ситуации, в которой все остаточные элементы предположительно равны нулю либо меньше наименьшего или первого размера шага квантования второй ступени квантования. Далее, на фиг. 7b, элемент 706 соответствует элементам 701, 702, 703 по фиг. 7a, и элемент 704 также может опускаться и может заменяться посредством модуля решения для принятия решения в отношении того, используется ли только квантование первой ступени. Этот модуль решения может управляться посредством пользовательского ввода или информации скорости передачи битов либо может фактически выполнять анализ остаточных элементов для определения, что остаточные элементы являются достаточно небольшими, таким образом, что точность второй группы объединенно кодированных параметров масштабирования, квантованных посредством только одной ступени, является достаточной.In yet another further embodiment, only the first quantization stage, such as 701, 702, 703, from the two-stage quantization module in FIG. 7a, which is preferably a fixed-rate quantization stage, and the second stage 705 is not used at all for the time portion or frame of the audio signal. This case corresponds to a situation in which all residual elements are assumed to be zero or less than the smallest or first quantization step size of the second quantization stage. Next, in FIG. 7b, element 706 corresponds to elements 701, 702, 703 in FIG. 7a, and element 704 may also be omitted and may be replaced by a decision module for deciding whether only first stage quantization is used. This decision module may be controlled by user input or bit rate information, or may actually perform residual analysis to determine that the residuals are small enough such that the accuracy of the second group of jointly encoded scaling parameters quantized by only one stage is sufficient .

В предпочтительной реализации настоящего изобретения, которая дополнительно иллюстрируется на фиг. 14, алгебраический модуль 145 векторного квантования дополнительно выполняет вычисление с разбиением на уровни и, предпочтительно, выполняет операцию с разбиением на уровни, одинаковую с операцией, которая выполняется посредством модуля векторного квантования. Таким образом, поднаборы остаточных значений соответствуют, относительно номера полосы частот, поднабору параметров масштабирования. Для случая наличия двух уровней разбиения, т.е. для первых 8 дискретизированных с понижением полос частот по фиг. 21, алгебраический модуль 145 векторного квантования формирует результат первого уровня. Кроме того, алгебраический модуль 145 векторного квантования формирует результат второго уровня для верхних 8 дискретизированных с понижением коэффициентов масштабирования или параметров масштабирования либо, в общем, информационных аудиоэлементов.In a preferred embodiment of the present invention, which is further illustrated in FIG. 14, the algebraic vector quantization unit 145 further performs a layered calculation and preferably performs a layered operation the same as the operation performed by the vector quantization unit. Thus, subsets of residuals correspond, with respect to frequency band number, to a subset of scaling parameters. For the case of two levels of partitioning, i.e. for the first 8 downsampled frequency bands of FIG. 21, the algebraic vector quantization module 145 generates the first level result. In addition, the algebraic vector quantization module 145 generates a second-level result for the top 8 downsampled scaling factors or scaling parameters or, in general, audio information elements.

Предпочтительно, алгебраический модуль 145 векторного квантования реализован как алгебраический модуль векторного квантования, определённый в разделе 5.2.3.1.6.9 документа ETSI TS 126 445 V13.2.0 (2016-08), упомянутого в качестве справочного документа (4), в котором результат соответствующего многоскоростного решетчатого векторного квантования с разбиением представляет собой номер таблицы кодирования для каждых 8 элементов, векторный индекс в базовой таблице кодирования и 8-мерный индекс Вороного. Тем не менее, только в случае наличия одной таблицы кодирования, номер таблицы кодирования может исключаться, и только векторный индекс в базовой таблице кодирования и соответствующий n-мерный индекс Вороного являются достаточными. Таким образом, эти элементы, которые представляют собой элемент a, элемент b и элемент c либо только элемент b и элемент c для каждого уровня для результата алгебраического векторного квантования, представляют результат квантования второй ступени.Preferably, the algebraic vector quantization module 145 is implemented as the algebraic vector quantization module defined in section 5.2.3.1.6.9 of ETSI TS 126 445 V13.2.0 (2016-08), referred to as reference document (4), in which the result of the corresponding multi-rate lattice vector quantization with partitioning is a codebook number for every 8 elements, a vector index in the base codebook, and an 8-dimensional Voronoi index. However, only in the case of one codebook, the codebook number can be eliminated, and only the vector index in the base codebook and the corresponding n-dimensional Voronoi index are sufficient. Thus, these elements, which are element a, element b and element c, or only element b and element c for each level for the algebraic vector quantization result, represent the second stage quantization result.

Далее следует обратиться к фиг. 10, иллюстрирующему соответствующую операцию декодирования, совпадающую с кодированием по фиг. 7a, 7b или кодированием по фиг. 14, в соответствии с первым или вторым аспектом настоящего изобретения либо в соответствии с обоими аспектами.Next, refer to FIG. 10, illustrating a corresponding decoding operation identical to the encoding of FIG. 7a, 7b or coding according to FIG. 14, in accordance with the first or second aspect of the present invention, or in accordance with both aspects.

На этапе 2221 по фиг. 10, квантованные средние коэффициенты масштабирования, т.е. вторая группа объединенно кодированных коэффициентов масштабирования извлекаются. Это выполняется, когда флаг стереорежима или элемент 1403 по фиг. 5 указывает истинное значение. Далее, декодирование 2223 в первой ступени и декодирование 2261 во второй ступени выполняются для выполнения заново процедур, выполненных кодером по фиг. 14 и, в частности, алгебраическим модулем 145 векторного квантования, описанным с обращением к фиг. 14 или описанным с обращением к фиг. 7a. На этапе 2225 предполагается, что все боковые коэффициенты масштабирования равны 0. На этапе 2261, посредством значения нулевого флага проверяется, поступают ли фактически ненулевые квантованные коэффициенты масштабирования для кадра. В случае если значение нулевого флага указывает то, что имеются ненулевые боковые коэффициенты масштабирования для кадра, то квантованные боковые коэффициенты масштабирования извлекаются и декодируются с использованием декодирования 2261 во второй ступени либо выполнения только блока 706 по фиг. 7b. В блоке 2207, объединенно кодированные параметры масштабирования преобразуются обратно в отдельно кодированные параметры масштабирования для последующего вывода квантованных левых и правых параметров масштабирования, которые далее могут использоваться для обратного масштабирования спектра в декодере.At step 2221 of FIG. 10, quantized average scaling factors, i.e. a second group of jointly encoded scaling factors are extracted. This is done when the stereo mode flag or element 1403 of FIG. 5 indicates true value. Next, decoding 2223 in the first stage and decoding 2261 in the second stage are performed to re-perform the procedures performed by the encoder in FIG. 14 and, in particular, the algebraic vector quantization module 145 described with reference to FIG. 14 or described with reference to FIG. 7a. At step 2225, it is assumed that all side scale factors are equal to 0. At step 2261, through the value of the zero flag, it is checked whether non-zero quantized scale factors are actually received for the frame. If the value of the zero flag indicates that there are non-zero side scale factors for the frame, then the quantized side scale factors are extracted and decoded using second stage decoding 2261 or executing only block 706 of FIG. 7b. At block 2207, the jointly encoded scaling parameters are converted back into separately encoded scaling parameters to subsequently output quantized left and right scaling parameters, which can then be used to descale the spectrum at the decoder.

Когда значение флага стереорежима указывает значение в нуль, или когда определяется то, что отдельное кодирование использовано в кадре, в таком случае только декодирование 2223 в первой ступени и декодирование 2261 во второй ступени выполняется для левых и правых коэффициентов масштабирования, и поскольку левые и правые коэффициенты масштабирования уже находятся в отдельно кодированном представлении, преобразование, такое как блок 2207, вообще не требуется. Процесс эффективного кодирования и декодирования коэффициентов SNS масштабирования, которые необходимы для масштабирования спектра перед стереообработкой на стороне кодера и после обратной стереообработки на стороне декодера, описан ниже, чтобы показать предпочтительную реализацию настоящего изобретения в качестве примерного псевдокода с комментариями.When the value of the stereo mode flag indicates a value of zero, or when it is determined that separate encoding is used in a frame, then only decoding 2223 in the first stage and decoding 2261 in the second stage is performed for the left and right scaling factors, and since the left and right coefficients the scalings are already in a separately encoded representation, a transformation such as block 2207 is not needed at all. The process of efficiently encoding and decoding the SNS scaling factors that are required for spectral scaling before stereo processing on the encoder side and after inverse stereo processing on the decoder side is described below to show a preferred implementation of the present invention as exemplary annotated pseudo code.

Объединенное квантование и кодирование коэффициентов масштабированияCombined quantization and scaling factor encoding

Любой вид квантования, например, равномерное или неравномерное скалярное квантование и энтропийное или арифметическое кодирование, может использоваться для представления параметров. В описанной реализации, как можно видеть в описании алгоритма, реализуется двухступенчатая схема векторного квантования:Any kind of quantization, such as uniform or non-uniform scalar quantization and entropy or arithmetic encoding, can be used to represent parameters. In the described implementation, as can be seen in the description of the algorithm, a two-stage vector quantization scheme is implemented:

- Первая ступень: 2 разбиения (по 8 размерностей) с 5 битами каждый, в силу чего кодирование с 10 битами.- First stage: 2 partitions (8 dimensions) with 5 bits each, resulting in a 10-bit encoding.

- Вторая ступень: алгебраическое векторное квантование (AVQ), снова с 2 разбиениями с масштабированием остатка, при этом индексы таблиц кодирования энтропийно кодируются, и в силу этого использует переменную скорость передачи битов.- Second stage: algebraic vector quantization (AVQ), again with 2 partitions with remainder scaling, where codebook indices are entropy encoded, and as such uses a variable bit rate.

Поскольку боковой сигнал для высококоррелированных каналов может считаться небольшим, использование, например, только AVQ второй ступени уменьшенного масштаба является достаточным для представления соответствующих параметров SNS. За счет пропуска VQ первой ступени для этих сигналов, может достигаться значительное снижение сложности и числа битов для кодирования параметров SNS.Since the side signal for highly correlated channels can be considered small, using, for example, only the downscaled second stage AVQ is sufficient to represent the corresponding SNS parameters. By skipping the first stage VQ for these signals, a significant reduction in the complexity and number of bits for encoding SNS parameters can be achieved.

Ниже приводится описание в форме псевдокода каждой ступени реализованного квантования. Первая ступень с векторным квантованием с 2 разбиениями с использованием 5 битов для каждого разбиения:Below is a description in pseudocode form of each stage of the implemented quantization. First stage with vector quantization with 2 partitions using 5 bits for each partition:

Алгебраическое векторное квантование второй ступени:Algebraic vector quantization of the second stage:

Индексы, которые выводятся из процесса кодирования, в конечном счете пакетируются в поток битов и отправляются в декодер.The indices that are output from the encoding process are ultimately packetized into a bitstream and sent to the decoder.

Процедура AVQ, раскрытая выше для второй ступени, предпочтительно реализуется так, как указано в EVS, указывающем на высокоскоростной LPC (подраздел 5.3.3.2.1.3) в главе «TCX на основе MDCT». В частности, для используемого алгебраического модуля векторного квантования второй ступени указано, что "5.3.3.2.1.3.4. Algebraic vector quantizer and the algebraic VQ used for quantizing the refinement" описан в подразделе 5.2.3.1.6.9. В варианте осуществления для каждого индекса имеется набор кодовых слов для индекса базовой таблицы кодирования и набор кодовых слов для индекса Вороного, и все это энтропийно кодируется и в силу этого имеет переменную скорость передачи битов. Следовательно, параметры AVQ в каждой подполосе j частот состоят из номера таблицы кодирования, векторного индекса в базовой таблице кодирования и n-(к примеру, 8-)мерного индекса Вороного.The AVQ procedure disclosed above for the second stage is preferably implemented as specified in the EVS indicating high-speed LPC (subsection 5.3.3.2.1.3) in the MDCT-Based TCX chapter. In particular, for the second-stage algebraic vector quantization module used, it is indicated that “5.3.3.2.1.3.4. Algebraic vector quantizer and the algebraic VQ used for quantizing the refinement” is described in subsection 5.2.3.1.6.9. In an embodiment, for each index there is a set of codewords for the base codebook index and a set of codewords for the Voronoi index, all of which are entropy encoded and therefore have a variable bit rate. Therefore, the AVQ parameters in each j frequency subband consist of a codebook number, a vector index in the base codebook, and an n-(eg, 8-)dimensional Voronoi index.

Декодирование коэффициентов масштабированияDecoding Scaling Factors

На стороне декодера индексы извлекаются из потока битов и используются для декодирования и получения квантованных значений коэффициентов масштабирования. Ниже приведен пример псевдокода процедуры.On the decoder side, indices are extracted from the bitstream and used to decode and obtain the quantized values of the scale factors. Below is an example of pseudocode for the procedure.

Процедура двухступенчатого декодирования подробно описана в нижеприведенном псевдокоде.The two-stage decoding procedure is described in detail in the pseudo code below.

Квантованные коэффициенты SNS масштабирования, извлеченные из первой ступени, детализируются посредством декодирования остатка во второй ступени. Процедура обеспечивается в нижеприведенном псевдокоде:The quantized SNS scaling coefficients extracted from the first stage are detailed by decoding the remainder in the second stage. The procedure is provided in the pseudocode below:

Относительно масштабирования или усиления/взвешивания остатка на стороне кодера и масштабирования или ослабления/взвешивания на стороне декодера, весовые коэффициенты не вычисляются отдельно для каждого значения или разбиения, но один весовой коэффициент или небольшое число различных весовых коэффициентов (в качестве аппроксимации для исключения сложности) используются для масштабирования всех параметров. Это масштабирование представляет собой фактор, который определяет компромисс, например, сокращения скорости передачи битов при приблизительном квантовании (с большим количеством квантований до нуля) и точности квантования (с соответствующим спектральным искажением), и может быть задан в кодере таким образом, что это заданное значение не должно обязательно передаваться в декодер, а может задаваться фиксированно либо инициализироваться в декодере, чтобы сокращать число передаваемых битов. Следовательно, более высокое масштабирование остатка требует большего числа битов, но имеет минимальное спектральное искажение, тогда как уменьшение масштаба должно сокращать дополнительное число битов, и если спектральное искажение поддерживается в приемлемом диапазоне, это может служить в качестве средства дополнительного сокращения скорости передачи битов.Regarding scaling or gain/weighting of the remainder on the encoder side and scaling or attenuation/weighting on the decoder side, weights are not calculated separately for each value or split, but one weight or a small number of different weights (as an approximation to eliminate complexity) are used to scale all parameters. This scaling is a factor that determines the trade-off of, for example, the reduction in bit rate of coarse quantization (with many quantizations down to zero) and quantization precision (with associated spectral distortion), and can be set in the encoder such that it is a given value does not have to be transmitted to the decoder, but can be set fixedly or initialized in the decoder to reduce the number of transmitted bits. Therefore, higher residual scaling requires more bits but has minimal spectral distortion, whereas downscaling should reduce the additional number of bits, and if the spectral distortion is kept within an acceptable range, this can serve as a means of further reducing the bit rate.

Преимущества предпочтительных вариантов осуществленияAdvantages of the Preferred Embodiments

- Существенное сокращение числа битов, когда два канала коррелируются, и параметры SNS кодируются объединенно.- Significant reduction in the number of bits when two channels are correlated and SNS parameters are encoded jointly.

Ниже показывается пример сокращения числа битов в расчете на кадр, достигаемого в системе, описанной в предыдущем разделе:The following shows an example of the reduction in the number of bits per frame achieved in the system described in the previous section:

-- Независимый: 88,1 бита в среднем-- Independent: 88.1 bits average

-- Новый независимый: 72,0 бита в среднем-- New independent: 72.0 bits average

-- Новый объединенный: 52,1 бита в среднем-- New combined: 52.1 bits average

- где:- Where:

- «Независимый» представляет собой стереореализацию MDCT, описанную в [8] с использованием SNS [6] для кодирования FDNS только двух каналов независимо с двухступенчатым VQ- "Independent" is a stereo MDCT implementation described in [8] using SNS [6] to FDNS encode only two channels independently with two-stage VQ

- Первая ступень: 8-битовая обученная таблица кодирования (16 размерностей)- First stage: 8-bit trained codebook (16 dimensions)

- Вторая ступень: AVQ остатка, масштабируемого с коэффициентом 4 (переменная скорость передачи битов)- Second stage: AVQ remainder, scaled by a factor of 4 (variable bit rate)

- «Новый независимый» означает вышеописанный вариант осуществления изобретения, в котором корреляция двух каналов не является достаточно высокой, и они кодируются отдельно, с использованием нового двухступенчатого подхода VQ, как описано выше, и остаток масштабируется с уменьшенным коэффициентом в 2,5- "New independent" means the above-described embodiment in which the correlation of the two channels is not high enough and they are encoded separately, using the new two-stage VQ approach as described above, and the remainder is scaled by a reduced factor of 2.5

- «Новый объединенный» означает объединенно кодированный случай (также описанный выше), в котором снова во второй ступени остаток масштабируется с уменьшенным коэффициентом в 2,5.- “New merged” means the pooled case (also described above), in which again in the second stage the remainder is scaled by a reduced factor of 2.5.

- Другое преимущество предложенного способа заключается в снижении вычислительной сложности. Как показано в [6], новый SNS является более оптимальным с точки зрения вычислительной сложности из FDNS на основе LPC, описанного в [5], вследствие вычислений автокорреляции, которые необходимы для оценки LPC. Следовательно, при сравнении вычислительной сложности стереосистемы на основе MDCT из [8], в которой используется улучшенное FDNS на основе LPC [5], с реализацией, в которой новый SNS [6] заменяет подход на основе LPC, предусмотрено сокращение приблизительно в 6 WMOPS на частоте дискретизации в 32 кГц.- Another advantage of the proposed method is the reduction of computational complexity. As shown in [6], the new SNS is computationally superior to the LPC-based FDNS described in [5] due to the autocorrelation calculations that are required to estimate the LPC. Therefore, when comparing the computational complexity of the MDCT-based stereo system from [8], which uses an improved LPC-based FDNS [5], with an implementation in which the new SNS [6] replaces the LPC-based approach, a reduction of approximately 6 WMOPS per sampling frequency of 32 kHz.

Кроме того, новое двухступенчатое квантование с VQ для первой ступени и AVQ с уменьшенным масштабом для второй ступени достигает некоторого дополнительного уменьшения вычислительной сложности. Для варианта осуществления, описанного в предыдущем разделе, вычислительная сложность уменьшается дополнительно приблизительно на 1 WMOPS на частоте дискретизации в 32 кГц с компромиссом в отношении приемлемого спектрального искажения.Additionally, the new two-stage quantization with VQ for the first stage and downscaled AVQ for the second stage achieves some additional reduction in computational complexity. For the embodiment described in the previous section, the computational complexity is reduced by an additional approximately 1 WMOPS at the 32 kHz sampling rate, with the tradeoff of acceptable spectral distortion.

Сущность предпочтительных вариантов осуществления или аспектовSUMMARY OF PREFERRED EMBODIMENTS OR Aspects

1. Объединенное кодирование параметров формирования спектрального шума, в котором среднее/боковое представление параметров вычисляется, и средний кодируется с использованием квантования и энтропийного кодирования, а боковой кодируется с использованием более приблизительной схемы квантования.1. Joint encoding of spectral noise shaping parameters, in which the mean/side representation of the parameters is calculated and the middle is encoded using quantization and entropy encoding, and the side is encoded using a more approximate quantization scheme.

2. Адаптивное определение того, должны параметры формирования шума кодироваться независимо или объединенно, на основе канальной корреляции или когерентности.2. Adaptively determine whether noise shaping parameters should be encoded independently or jointly, based on channel correlation or coherence.

3. Служебный бит, отправленный для определения, кодированы ли параметры независимо или объединенно.3. A service bit sent to determine whether the parameters are encoded independently or concatenated.

4. Варианты применения на основе стереореализации MDCT:4. Application options based on MDCT stereo implementation:

- передача служебных сигналов с битами, в которых боковые коэффициенты являются нулевыми,- transmission of service signals with bits in which the side coefficients are zero,

- в которых используется SNS,- which use SNS,

- в которых спектр мощности используется для вычисления SNS,- in which the power spectrum is used to calculate the SNS,

- в которых 2 разбиения с 5 битами используются в первой ступени.- in which 2 splits with 5 bits are used in the first stage.

- Регулирование масштабирования остатка AVQ второй ступени дополнительно может уменьшать число битов для квантования второй ступени.- Adjusting the scaling of the second stage AVQ residual may further reduce the number of bits for quantizing the second stage.

Фиг. 23 иллюстрирует сравнение в числе битов для обоих каналов в соответствии с текущей реализацией из уровня техники (описанного как «независимый» выше), новой независимой реализацией в соответствии со вторым аспектом настоящего изобретения и для новой объединенной реализации в соответствии с первым аспектом настоящего изобретения. Фиг. 23 иллюстрирует гистограмму, на которой вертикальная ось представляет частоту появления, и горизонтальная ось иллюстрирует элементы разрешения общего числа битов для кодирования параметров для обоих каналов.Fig. 23 illustrates a comparison in the number of bits for both channels in accordance with the current prior art implementation (described as “independent” above), a new independent implementation in accordance with the second aspect of the present invention, and for a new combined implementation in accordance with the first aspect of the present invention. Fig. 23 illustrates a histogram in which the vertical axis represents the frequency of occurrence and the horizontal axis illustrates bins of the total number of parameter encoding bits for both channels.

Далее проиллюстрированы дополнительные предпочтительные варианты осуществления, в которых конкретный акцент придается вычислению коэффициентов масштабирования для каждого аудиоканала, и в которых дополнительно конкретный акцент придается конкретному применению понижающей дискретизации и повышающей дискретизации параметров масштабирования, которая применяется до или после вычисления объединенно кодированных параметров масштабирования, как проиллюстрировано относительно фиг. 3a, фиг. 3b.Further illustrated are further preferred embodiments in which particular emphasis is given to the calculation of scaling factors for each audio channel, and in which further particular emphasis is given to the particular application of downsampling and upsampling of scaling parameters that is applied before or after calculating the jointly encoded scaling parameters, as illustrated with respect to fig. 3a, fig. 3b.

Фиг. 11 иллюстрирует устройство для кодирования аудиосигнала 160. Аудиосигнал 160 предпочтительно доступен во временной области, хотя другие представления аудиосигнала, таки как область прогнозирования или любая другая область, преимущественно также должны быть полезными. Устройство содержит преобразователь 100, модуль 110 вычисления коэффициентов масштабирования, спектральный процессор 120, модуль 130 понижающей дискретизации, кодер 140 коэффициентов масштабирования и выходной интерфейс 150. Преобразователь 100 выполнен с возможностью преобразования аудиосигнала 160 в спектральное представление. Модуль 110 вычисления коэффициентов масштабирования выполнен с возможностью вычисления первого набора параметров масштабирования или коэффициентов масштабирования из спектрального представления. Другой канал принимается в блоке 120, и параметры масштабирования из других каналов принимаются посредством блока 140.Fig. 11 illustrates an apparatus for encoding an audio signal 160. The audio signal 160 is preferably available in the time domain, although other representations of the audio signal, such as the prediction domain or any other domain, would advantageously also be useful. The apparatus includes a converter 100, a scale factor calculation module 110, a spectral processor 120, a downsampling module 130, a scale factor encoder 140, and an output interface 150. The converter 100 is configured to convert the audio signal 160 to a spectral representation. The scaling factor calculation module 110 is configured to calculate a first set of scaling parameters or scaling factors from the spectral representation. Another channel is received at block 120, and scaling parameters from other channels are received through block 140.

Во всем подробном описании термин «коэффициент масштабирования» или «параметр масштабирования» используется для указания на одинаковый параметр или значение, т.е. значение или параметр, который, после некоторой обработки, используется для взвешивания некоторых спектральных значений. Это взвешивание, при выполнении в линейной области, фактически представляет собой операцию умножения с коэффициентом масштабирования. Тем не менее, когда взвешивание выполняется в логарифмической области, в таком случае операция взвешивания с коэффициентом масштабирования осуществляется посредством фактической операции сложения или вычитания. Таким образом, в отношении настоящей заявки, масштабирование означает не только умножение или деление, но также означает, в зависимости от определенной области, сложения или вычитание либо, в общем, означает каждую операцию, посредством которой спектральное значение, например, взвешивается или модифицируется с использованием коэффициента масштабирования или параметра масштабирования.Throughout the detailed description, the term “scaling factor” or “scaling parameter” is used to refer to the same parameter or value, i.e. a value or parameter which, after some processing, is used to weight some spectral values. This weighting, when performed in the linear domain, is effectively a multiplication operation with a scaling factor. However, when weighting is performed in the logarithmic domain, then the weighting operation with the scale factor is carried out through an actual addition or subtraction operation. Thus, for the purposes of the present application, scaling does not only mean multiplication or division, but also means, depending on the specific area, addition or subtraction or, in general, means every operation by which a spectral value is, for example, weighted or modified using scaling factor or scaling parameter.

Модуль 130 понижающей дискретизации выполнен с возможностью понижающей дискретизации первого набора параметров масштабирования для получения второго набора параметров масштабирования, при этом второе число параметров масштабирования во втором наборе параметров масштабирования ниже первого числа параметров масштабирования в первом наборе параметров масштабирования. Это также приводится в поле на фиг. 11, указывающем то, что второе число ниже первого числа. Как проиллюстрировано на фиг. 11, кодер коэффициентов масштабирования выполнен с возможностью формирования кодированного представления второго набора коэффициентов масштабирования, и это кодированное представление перенаправляется в выходной интерфейс 150. Вследствие того факта, что второй набор коэффициентов масштабирования имеет меньшее число коэффициентов масштабирования, чем первый набор коэффициентов масштабирования, скорость передачи битов для передачи или сохранения кодированного представления второго набора коэффициентов масштабирования является более низкой по сравнению с ситуацией, в которой понижающая дискретизация коэффициентов масштабирования, выполняемая в модуле130 понижающей дискретизации, не выполнена.The downsampling module 130 is configured to downsample the first set of scaling parameters to obtain a second set of scaling parameters, wherein the second number of scaling parameters in the second set of scaling parameters is lower than the first number of scaling parameters in the first set of scaling parameters. This is also shown in the box in FIG. 11, indicating that the second number is lower than the first number. As illustrated in FIG. 11, the scale factor encoder is configured to generate a coded representation of the second set of scale factors, and this coded representation is forwarded to the output interface 150. Due to the fact that the second set of scale factors has a smaller number of scale factors than the first set of scale factors, the bit rate for transmitting or storing an encoded representation of the second set of scale factors is lower compared to the situation in which downsampling of the scale factors performed in the downsampling unit 130 is not performed.

Кроме того, спектральный процессор 120 выполнен с возможностью обработки спектрального представления, выводимого посредством преобразователя 100 на фиг. 11, с использованием третьего набора параметров масштабирования, причем третий набор параметров масштабирования или коэффициентов масштабирования имеет третье число коэффициентов масштабирования, большее второго числа коэффициентов масштабирования, при этом спектральный процессор 120 выполнен с возможностью использования для целей спектральной обработки первого набора коэффициентов масштабирования, доступный из блока 110 через линию 171. В качестве альтернативы, спектральный процессор 120 выполнен с возможностью использования второго набора коэффициентов масштабирования в качестве вывода посредством модуля 130 понижающей дискретизации для вычисления третьего набора коэффициентов масштабирования, как проиллюстрировано посредством линии 172. В дополнительной реализации, спектральный процессор 120 использует кодированное представление, выводимое посредством кодера 140 коэффициента/параметра масштабирования, для целей вычисления третьего набора коэффициентов масштабирования, как проиллюстрировано посредством линии 173 на фиг. 11. Предпочтительно, спектральный процессор 120 не использует первый набор коэффициентов масштабирования, но использует либо второй набор коэффициентов масштабирования, вычисленный посредством модуля понижающей дискретизации, либо, еще более предпочтительно, использует кодированное представление или, в общем, квантованный второй набор коэффициентов масштабирования и после этого выполняет операцию интерполяции для интерполяции квантованного второго набора спектральных параметров, чтобы получить третий набор параметров масштабирования, который имеет более высокое число параметров масштабирования вследствие операции интерполяции.In addition, the spectral processor 120 is configured to process the spectral representation output by the converter 100 in FIG. 11, using a third set of scaling parameters, wherein the third set of scaling parameters or scaling factors has a third number of scaling factors greater than the second number of scaling factors, wherein the spectral processor 120 is configured to use for spectral processing purposes the first set of scaling factors accessible from the block 110 via line 171. Alternatively, spectral processor 120 is configured to use the second set of scaling factors as an output via downsampling module 130 to calculate a third set of scaling factors, as illustrated by line 172. In an additional implementation, spectral processor 120 uses encoded representation output by scale factor/parameter encoder 140 for purposes of calculating a third set of scale factors, as illustrated by line 173 in FIG. 11. Preferably, spectral processor 120 does not use the first set of scale factors, but uses either a second set of scale factors calculated by the downsampler, or, even more preferably, uses an encoded representation or generally quantized second set of scale factors and thereafter performs an interpolation operation to interpolate the quantized second set of spectral parameters to obtain a third set of scaling parameters that has a higher number of scaling parameters due to the interpolation operation.

Таким образом, кодированное представление второго набора коэффициентов масштабирования, который выводится посредством блока 140, содержит либо индекс таблицы кодирования для предпочтительно используемой таблицы кодирования параметров масштабирования, либо набор соответствующих индексов таблиц кодирования. В других вариантах осуществления, кодированное представление содержит квантованные параметры масштабирования квантованных коэффициентов масштабирования, которые получаются, когда индекс таблицы кодирования или набор индексов таблиц кодирования или, в общем, кодированное представление вводится в векторный декодер на стороне декодера или любой другой декодер.Thus, the encoded representation of the second set of scale factors that is output by block 140 comprises either a codebook index for a preferably used scale parameter codebook or a set of corresponding codebook indices. In other embodiments, the encoded representation contains quantized scaling parameters of the quantized scaling factors that are obtained when a codebook index or set of codebook indices or, more generally, an encoded representation is input to a decoder-side vector decoder or any other decoder.

Предпочтительно, спектральный процессор 120 использует тот же набор коэффициентов масштабирования, который также доступен на стороне декодера, т.е. использует квантованный второй набор параметров масштабирования вместе с операцией интерполяции, чтобы в конечном счете получать третий набор коэффициентов масштабирования.Preferably, spectral processor 120 uses the same set of scaling factors that is also available on the decoder side, i.e. uses the quantized second set of scaling parameters together with an interpolation operation to ultimately obtain a third set of scaling factors.

В предпочтительном варианте осуществления, третье число коэффициентов масштабирования в третьем наборе коэффициентов масштабирования равно первому числу коэффициентов масштабирования. Тем не менее, меньшее число коэффициентов масштабирования также является полезным. В качестве примера, например, можно извлекать 64 коэффициента масштабирования в блоке 110, и можно затем дискретизировать с понижением 64 коэффициента масштабирования до 16 коэффициентов масштабирования для передачи. После этого, можно выполнять интерполяцию не обязательно в 64 коэффициента масштабирования, а в 32 коэффициента масштабирования в спектральном процессоре 120. В качестве альтернативы, можно выполнять интерполяцию в еще более высокое число, к примеру, более чем в 64 коэффициента масштабирования, в зависимости от обстоятельств, при условии, что число коэффициентов масштабирования, передаваемых в кодированном выходном сигнале 170, меньше числа коэффициентов масштабирования, вычисленных в блоке 110 либо вычисленных и используемых в блоке 120 по фиг. 11.In a preferred embodiment, the third number of scale factors in the third set of scale factors is equal to the first number of scale factors. However, fewer scaling factors are also beneficial. As an example, for example, 64 scale factors may be extracted in block 110, and the 64 scale factors may then be downsampled to 16 scale factors for transmission. You can then interpolate not necessarily to 64 scale factors, but to 32 scale factors in the spectral processor 120. Alternatively, you can interpolate to an even higher number, for example, more than 64 scale factors, depending on the circumstances , provided that the number of scale factors transmitted in the encoded output signal 170 is less than the number of scale factors calculated in block 110 or calculated and used in block 120 of FIG. eleven.

Предпочтительно, модуль 110 вычисления коэффициентов масштабирования выполнен с возможностью выполнения нескольких операций, проиллюстрированных на фиг. 12. Эти операции означают вычисление 111 связанного с амплитудой показателя в расчете на полосу частот, при этом спектральное представление для одного канала вводится в блок 111. Вычисление для другого канала должно осуществляться аналогичным образом. Предпочтительный связанный с амплитудой показатель в расчете на полосу частот представляет собой энергию в расчете на полосу частот, но также могут использоваться другие связанные с амплитудой показатели, например, сложение абсолютных величин амплитуд в расчете на полосу частот или сложение возведенных в квадрат амплитуд, которое соответствует энергии. Тем не менее, помимо степени 2, используемой для вычисления энергии в расчете на полосу частот, также могут использоваться другие степени, к примеру, степень 3, которая отражает уровень громкости сигнала, и также могут использоваться степени, отличающиеся от целых чисел, к примеру, степени в 1,5 или 2,5, для вычисления связанных с амплитудой показателей в расчете на полосу частот. Даже степени, меньшие 1,0, могут использоваться при условии, что необходимо удостовериться, что значения, обработанные посредством таких степеней, имеют положительные значения.Preferably, the scaling factor calculator 110 is configured to perform several operations illustrated in FIG. 12. These operations involve calculating 111 an amplitude-related metric per bandwidth, with the spectral representation for one channel being entered into block 111. The calculation for the other channel must be done in a similar manner. The preferred amplitude-related metric per bandwidth is energy per bandwidth, but other amplitude-related metrics can also be used, such as adding the absolute values of the amplitudes per bandwidth or adding the squared amplitudes, which corresponds to energy . However, in addition to power 2, which is used to calculate the energy per bandwidth, other powers can also be used, for example power 3, which reflects the loudness level of the signal, and powers other than integers can also be used, for example, powers of 1.5 or 2.5 to calculate amplitude-related metrics per bandwidth. Even powers less than 1.0 can be used, provided that it is necessary to ensure that the values processed by such powers have positive values.

Дополнительная операция, выполняемая посредством модуля вычисления коэффициентов масштабирования, может представлять собой межполосное сглаживание 112. Это межполосное сглаживание предпочтительно используется для сглаживания возможных нестабильностей, которые могут появляться в векторе связанных с амплитудой показателей, полученных посредством этапа 111. Если нельзя выполнять это сглаживание, эти нестабильности должны усиливаться при преобразовании в логарифмическую область впоследствии, как проиллюстрировано в 115, в частности, в спектральных значениях, в которых энергия составляет близко к 0. Тем не менее, в других вариантах осуществления, межполосное сглаживание не выполняется.An additional operation performed by the scaling factor calculation module may be inter-band smoothing 112. This inter-band smoothing is preferably used to smooth out possible instabilities that may appear in the vector of amplitude-related metrics obtained by step 111. If this smoothing cannot be performed, these instabilities should be enhanced when converted to the logarithmic domain subsequently, as illustrated in 115, particularly at spectral values in which the energy is close to 0. However, in other embodiments, interband smoothing is not performed.

Дополнительная предпочтительная операция, выполняемая посредством модуля 110 вычисления коэффициентов масштабирования, представляет собой операцию 113 коррекции предыскажений. Эта операция коррекции предыскажений имеет аналогичное назначение с операцией коррекции предыскажений, используемой в перцепционном фильтре на основе LPC для обработки TCX на основе MDCT, как пояснено выше относительно уровня техники. Эта процедура увеличивает амплитуду спектра определенной формы на низких частотах, что приводит к уменьшенному шуму квантования на низких частотах.An additional preferred operation performed by the scaling factor calculation unit 110 is a pre-emphasis correction operation 113 . This pre-emphasis correction operation has a similar purpose to the pre-emphasis correction operation used in the LPC-based perceptual filter for MDCT-based TCX processing, as explained above with respect to the prior art. This procedure increases the amplitude of a specific spectrum shape at low frequencies, resulting in reduced quantization noise at low frequencies.

Тем не менее, в зависимости от реализации, операция коррекции предыскажений - в качестве других конкретных операций - не должна выполняться обязательно.However, depending on the implementation, the pre-emphasis correction operation - like other specific operations - may not necessarily be performed.

Дополнительная факультативная операция обработки представляет собой обработку 114 сложения минимального уровня шума. Эта процедура повышает качество сигналов, содержащих очень высокую спектральную динамику, таких как, например, глокеншпиль, в силу ограничения усиления амплитуды спектра определенной формы во впадинах, что имеет косвенный эффект уменьшения шума квантования в пиках, за счет увеличения шума квантования во впадинах, при этом шум квантования в любом случае не является воспринимаемым вследствие маскирующих свойств человеческого уха, таких как абсолютное пороговое значение прослушивания, премаскирование, постмаскирование или общее пороговое значение маскирования, указывающее то, что типично, тон достаточно низкой громкости, относительно близкий по частоте к тону высокой громкости, вообще не является воспринимаемым, т.е. полностью маскируется либо только грубо воспринимается посредством механизма человеческого слуха таким образом, что эта спектральная доля может квантоваться достаточно приблизительно.An additional optional processing operation is noise floor addition processing 114 . This procedure improves the quality of signals containing very high spectral dynamics, such as glockenspiel, by limiting the amplitude gain of a particular spectral shape in the valleys, which has the indirect effect of reducing quantization noise in the peaks by increasing quantization noise in the valleys, while quantization noise is not perceptible in any case due to the masking properties of the human ear, such as an absolute listening threshold, pre-masking, post-masking, or a general masking threshold indicating what is typically a sufficiently low-volume tone relatively close in frequency to a high-volume tone, is not perceivable at all, i.e. is completely masked or is only grossly perceived by the human hearing mechanism in such a way that this spectral fraction can be quantized quite approximately.

Тем не менее, операция 114 сложения минимального уровня шума не должна выполняться обязательно.However, the noise floor addition operation 114 need not be performed.

Кроме того, блок 115 указывает преобразование в логарифмической области. Предпочтительно, преобразование вывода одного из блоков 111, 112, 113, 114 на фиг. 12 выполняется в логарифмической области. Логарифмическая область представляет собой область, в которой значения, близкие к 0, расширяются, а высокие значения сжимаются. Предпочтительно, логарифмическая область представляет собой область с основанием в 2, но также могут использоваться другие логарифмические области. Тем не менее, логарифмическая область с основанием в 2 лучше для реализации в процессоре сигналов с фиксированной запятой.In addition, block 115 indicates a transformation in the logarithmic domain. Preferably, transforming the output of one of the blocks 111, 112, 113, 114 in FIG. 12 is performed in the logarithmic domain. The logarithmic region is the region in which values close to 0 expand and high values contract. Preferably, the logarithmic region is a base 2 region, but other logarithmic regions may also be used. However, the base-2 logarithmic domain is better for implementation in a fixed-point signal processor.

Вывод модуля 110 вычисления коэффициентов масштабирования представляет собой первый набор коэффициентов масштабирования.The output of the scaling factor calculation unit 110 is a first set of scaling factors.

Как проиллюстрировано на фиг. 12, каждый из блоков 112-115 может быть организован, т.е. вывод блока 111, например, может уже представлять собой первый набор коэффициентов масштабирования. Тем не менее, все операции обработки и, в частности, преобразование в логарифмической области являются предпочтительными. Таким образом, например, можно даже реализовать модуль вычисления коэффициентов масштабирования посредством выполнения только этапов 111 и 115 без процедур на этапах 112-114. В выводе блока 115, получается набор параметров масштабирования для канала (к примеру, L), и набор параметров масштабирования для другого канала (к примеру, R) также может получаться посредством аналогичного вычисления.As illustrated in FIG. 12, each of the blocks 112-115 can be organized, i.e. the output of block 111, for example, may already represent a first set of scaling factors. However, all processing operations and, in particular, transformation in the logarithmic domain are preferred. Thus, for example, it is even possible to implement a scaling factor calculation module by performing only steps 111 and 115 without the procedures of steps 112-114. In the output of block 115, a set of scaling parameters for a channel (eg, L) is obtained, and a set of scaling parameters for another channel (eg, R) may also be obtained through a similar calculation.

Таким образом, модуль вычисления коэффициентов масштабирования выполнен с возможностью выполнения одной либо двух или более из процедур, проиллюстрированных на фиг. 12, как указано посредством входных/выходных линий, соединяющих несколько блоков.Thus, the scaling factor calculator is configured to perform one or two or more of the procedures illustrated in FIG. 12, as indicated by input/output lines connecting multiple blocks.

Фиг. 13 иллюстрирует предпочтительную реализацию модуля 130 понижающей дискретизации по фиг. 11 снова для одного канала. Данные для другого канала вычисляются аналогично. Предпочтительно, фильтрация нижних частот или, в общем, фильтрация с определенной функцией w(k) кодирования со взвешиванием выполняется на этапе 131, и после этого выполняется операция понижающей дискретизации/прореживания результата фильтрации. Вследствие того факта, что фильтрация 131 нижних частот, и в предпочтительных вариантах осуществления, операция 132 понижающей дискретизации/прореживания представляют собой арифметических операции, фильтрация 131 и понижающая дискретизация 132 могут выполняться в пределах одной операции, как указано далее. Предпочтительно, операция понижающей дискретизации/прореживания выполняется таким образом, что перекрытие между отдельными группами параметров масштабирования из первого набора параметров масштабирования выполняется. Предпочтительно, перекрытие одного коэффициента масштабирования в операции фильтрации между двумя прореженными вычисленными параметрами выполняется. Таким образом, этап 131 выполняет фильтрацию нижних частот для вектора параметров масштабирования перед прореживанием. Эта фильтрация нижних частот имеет эффект, аналогичный эффекту функции разброса, используемой в психоакустических моделях. Она уменьшает шум квантования в пиках, за счет увеличения шума квантования вокруг пиков, когда он в любом случае перцепционно маскируется по меньшей мере в более высокой степени относительно шума квантования в пиках.Fig. 13 illustrates a preferred implementation of the downsampling module 130 of FIG. 11 again for one channel. Data for the other channel is calculated in the same way. Preferably, low pass filtering or, in general, filtering with a specific weighted encoding function w(k) is performed at step 131, and thereafter a downsampling/decimation operation of the filtering result is performed. Due to the fact that low pass filtering 131, and in preferred embodiments, downsampling/decimation operation 132 are arithmetic operations, filtering 131 and downsampling 132 can be performed within a single operation, as follows. Preferably, the downsampling/decimation operation is performed such that overlap between individual groups of scaling parameters from the first set of scaling parameters is performed. Preferably, an overlap of one scaling factor in the filtering operation between the two thinned calculated parameters is performed. Thus, step 131 performs low-pass filtering on the vector of scaling parameters before decimation. This low-pass filtering has an effect similar to that of the scatter function used in psychoacoustic models. It reduces the quantization noise in the peaks by increasing the quantization noise around the peaks, where it is perceptually masked to at least a higher degree relative to the quantization noise in the peaks anyway.

Кроме того, модуль понижающей дискретизации дополнительно выполняет удаление 133 средних значений и дополнительный этап 134 масштабирования. Тем не менее, операция 131 фильтрации нижних частот, этап 133 удаления средних значений и этап 134 масштабирования представляют собой только факультативные этапы. Таким образом, модуль понижающей дискретизации, проиллюстрированный на фиг. 13 или проиллюстрированный на фиг. 11, может быть реализован с возможностью выполнения только этапа 132 либо выполнения двух этапов, проиллюстрированных на фиг. 13, к примеру, этап 132 и один из этапов 131, 133 и 134. В качестве альтернативы, модуль понижающей дискретизации может выполнять все четыре этапа или только три этапа из четырех этапов, проиллюстрированных на фиг. 13, при условии, что операция 132 понижающей дискретизации/прореживания выполняется.In addition, the downsampling module further performs average removal 133 and an additional scaling step 134. However, the low pass filtering step 131, the average removal step 133, and the scaling step 134 are only optional steps. Thus, the downsampling unit illustrated in FIG. 13 or illustrated in FIG. 11 may be implemented to perform only step 132 or to perform two steps illustrated in FIG. 13, for example, step 132 and one of steps 131, 133, and 134. Alternatively, the downsampler may perform all four steps or only three steps of the four steps illustrated in FIG. 13, provided that the downsampling/decimation operation 132 is performed.

Как указано на фиг. 13, аудиооперации на фиг. 13, выполняемые посредством модуля понижающей дискретизации, выполняются в логарифмической области, чтобы получать лучшие результаты.As indicated in FIG. 13, audio operations in FIG. 13, performed by the downsampling module, are performed in the logarithmic domain to obtain better results.

Фиг. 15 иллюстрирует предпочтительную реализацию спектрального процессора. Спектральный процессор 120, включенный в кодер по фиг. 11, содержит интерполятор 121, который принимает квантованный второй набор параметров масштабирования для каждого канала или, в качестве альтернативы, для группы объединенно кодированных параметров масштабирования, и который выводит третий набор параметров масштабирования для канала для группы объединенно кодированных параметров масштабирования, причем третье число больше второго числа и предпочтительно равно первому числу. Кроме того, спектральный процессор содержит преобразователь 120 в линейную область. В таком случае, формирование спектра выполняется в блоке 123 с использованием линейных параметров масштабирования, с одной стороны, и спектрального представления, с другой стороны, которое получается посредством преобразователя 100. Предпочтительно, последующая операция формирования временного шума, т.е. прогнозирование по частоте выполняется для получения остаточных спектральных значений в выводе блока 124, тогда как вспомогательная информация TNS перенаправляется в выходной интерфейс, как указано посредством стрелки 129.Fig. 15 illustrates a preferred implementation of a spectral processor. Spectral processor 120 included in the encoder of FIG. 11 includes an interpolator 121 that receives a quantized second set of scaling parameters for each channel or, alternatively, for a group of jointly encoded scaling parameters, and which outputs a third set of channel scaling parameters for the group of jointly encoded scaling parameters, the third number being greater than the second number and preferably equal to the first number. In addition, the spectral processor includes a converter 120 to the linear domain. In such a case, spectrum generation is performed in block 123 using linear scaling parameters on the one hand and a spectral representation on the other hand, which is obtained by converter 100. Preferably, a subsequent temporal noise generation operation, i.e. frequency prediction is performed to obtain the residual spectral values at the output of block 124, while the TNS auxiliary information is forwarded to the output interface as indicated by arrow 129.

В завершение, спектральный процессор 125, 120b имеет по меньшей мере одно из модуля скалярного квантования/кодера, который выполнен с возможностью приема одного глобального усиления для целого спектрального представления, т.е. для целого кадра, и функциональности стереообработки и функциональности обработки IGF и т.д. Предпочтительно, глобальное усиление извлекается в зависимости от определенных учитываемых факторов скорости передачи битов. Таким образом, глобальное усиление задается таким образом, что кодированное представление спектрального представления, сформированного посредством блока 125, 120b, удовлетворяет определенным требованиям, таким как требование по скорости передачи битов, требование к качеству либо оба требования. Глобальное усиление может итеративно вычисляться или может вычисляться в показателе с прямой связью в зависимости от обстоятельств. В общем, глобальное усиление используется вместе с модулем квантования, и высокое глобальное усиление типично приводит к более приблизительному квантованию, при этом низкое глобальное усиление приводит к более точному квантованию. Таким образом, другими словами, высокое глобальное усиление приводит к более высокому размеру шага квантования, тогда как низкое глобальное усиление приводит к меньшему размеру шага квантования, когда получается модуль квантования с фиксированным шагом. Тем не менее также могут использоваться другие модули квантования вместе с функциональностью на основе глобального усиления, к примеру, модуль квантования, который имеет некоторую функциональность сжатия для высоких значений, т.е. некоторую функциональность нелинейного сжатия таким образом, что, например, большие значения сжимаются в большей степени, чем меньшие значения. Вышеуказанная зависимость между глобальным усилением и приблизительностью квантования является допустимой, когда глобальное усиление умножается на значения перед квантованием в линейной области, соответствующем сложению в логарифмической области. Тем не менее, если глобальное усиление применяется посредством деления в линейной области или посредством вычитания в логарифмической области, зависимость является обратной. Это справедливо, когда «глобальное усиление» представляет обратное значение.Finally, the spectral processor 125, 120b has at least one of a scalar quantizer/encoder module that is configured to receive one global gain for the entire spectral representation, i.e. for the whole frame, and stereo processing functionality and IGF processing functionality, etc. Preferably, the global gain is extracted depending on certain bit rate factors taken into account. Thus, the global gain is set such that the encoded representation of the spectral representation generated by block 125, 120b satisfies certain requirements, such as a bit rate requirement, a quality requirement, or both requirements. Global gain can be calculated iteratively or can be calculated in a feed-forward metric depending on the circumstances. In general, global gain is used in conjunction with a quantization module, and high global gain typically results in more coarse quantization, while low global gain results in more accurate quantization. So, in other words, high global gain results in a higher quantization step size, while low global gain results in a smaller quantization step size when a fixed-step quantization unit is obtained. However, other quantization modules may also be used along with global gain based functionality, for example a quantization module that has some compression functionality for high values, i.e. some non-linear compression functionality such that, for example, larger values are compressed more than smaller values. The above relationship between global gain and quantization approximation is valid when the global gain is multiplied by values before quantization in the linear domain corresponding to addition in the logarithmic domain. However, if global gain is applied through division in the linear domain or through subtraction in the logarithmic domain, the relationship is reversed. This is true when "global gain" represents the inverse value.

Далее приводятся предпочтительные реализации отдельных процедур, описанных относительно фиг. 11 фиг. 15.The following are preferred implementations of the individual procedures described in relation to FIGS. 11 figs. 15.

Детализированное пошаговое описание предпочтительных вариантов осуществленияDetailed Step-by-Step Description of Preferred Embodiments

Кодер:Encoder:

Этап 1. Энергия в расчете на полосу частот (111)Step 1: Energy per Bandwidth (111)

Энергии в расчете на полосу частот E_B(n) вычисляются следующим образом:The energies per frequency band E _B (n) are calculated as follows:

где X(k) являются коэффициентами MDCT, N_B=64 является числом полос частот, и Ind(n) являются индексами полос частот. Полосы частот являются неравномерными и придерживаются перцепционно релевантной шкалы в барках (меньше на низких частотах, больше на высоких частотах).where X(k) are the MDCT coefficients, N _B =64 is the number of frequency bands, and Ind(n) are the indices of the frequency bands. Frequency bands are uneven and follow a perceptually relevant scale in barks (less at low frequencies, more at high frequencies).

Этап 2. Сглаживание (112)Stage 2. Smoothing (112)

Энергия E_B(b) в расчете на полосу частот сглаживается с использованием:The energy E _B (b) per bandwidth is smoothed using:

Комментарий: этот этап главным образом используется для сглаживания возможных нестабильностей, которые могут появляться в векторе E_B(b). Если не сглаживаются, эти нестабильности усиливаются при преобразовании в логарифмическую область (см. этап 5), в частности, во впадинах, в которых энергия составляет близко к 0.Comment: This step is mainly used to smooth out possible instabilities that may appear in the E _B (b) vector. If not smoothed out, these instabilities are amplified when converted to the logarithmic domain (see step 5), particularly in valleys where the energy is close to 0.

Этап 3. Коррекция предыскажений (113)Stage 3. Correction of pre-emphasis (113)

Сглаженная энергия E_S(b) в расчете на полосу частот затем подвергается коррекции предыскажений с использованием:The smoothed energy E _S (b) per bandwidth is then pre-emphasized using:

где g_tilt управляет наклоном при коррекции предыскажений и зависит от частоты дискретизации. Она, например, составляет 18 при 16 кГц и 30 при 48 кГц. Коррекция предыскажений, используемая на этом этапе, имеет то же назначение с коррекцией предыскажений, используемой в перцепционном фильтре на основе LPC по документу 2 из уровня техники, она увеличивает амплитуду спектра определенной формы на низких частотах, приводя к уменьшенному шуму квантования на низких частотах.where g _tilt controls the tilt when correcting pre-emphasis and depends on the sampling frequency. For example, it is 18 at 16 kHz and 30 at 48 kHz. The pre-emphasis correction used in this step has the same purpose as the pre-emphasis correction used in the LPC-based perceptual filter of Prior Art Document 2, it increases the amplitude of a specific spectrum shape at low frequencies, resulting in reduced quantization noise at low frequencies.

Этап 4. Минимальный уровень шума (114)Stage 4. Minimum noise level (114)

Минимальный уровень шума в -40dB суммируется с E_P(b) с использованием:The noise floor of -40dB is summed with E _P (b) using:

причем минимальный уровень шума вычисляется следующим образом:where the minimum noise level is calculated as follows:

Этот этап повышает качество сигналов, содержащих очень высокую спектральную динамику, таких как, например, глокеншпиль, в силу ограничения усиления амплитуды спектра определенной формы во впадинах, что имеет косвенный эффект уменьшения шума квантования в пиках, за счет увеличения шума квантования во впадинах, в которых он является в любом случае не воспринимаемым.This step improves the quality of signals containing very high spectral dynamics, such as glockenspiel, by limiting the amplitude gain of a particular spectral shape in the valleys, which has the indirect effect of reducing quantization noise in the peaks, by increasing quantization noise in the valleys in which it is in any case not perceivable.

Этап 5. Логарифм (115)Stage 5. Logarithm (115)

Преобразование в логарифмическую область затем выполняется с использованием:Conversion to logarithmic domain is then done using:

Этап 6. Понижающая дискретизация (131, 132)Stage 6: Downsampling (131, 132)

Вектор E_L(b) затем дискретизируется с понижением на коэффициент 4 с использованием:The vector E _L (b) is then downsampled by a factor of 4 using:

- где:- Where:

Этот этап применяет фильтрацию нижних частот (w(k)) к вектору E_L(b) перед прореживанием. Эта фильтрация нижних частот имеет эффект, аналогичный эффекту функции разброса, используемой в психоакустических моделях: она уменьшает шум квантования в пиках, за счет увеличения шума квантования вокруг пиков, когда он в любом случае перцепционно маскируется.This step applies low-pass filtering (w(k)) to the vector E _L (b) before decimation. This low-pass filtering has an effect similar to that of the scatter function used in psychoacoustic models: it reduces quantization noise at peaks, at the expense of increasing quantization noise around peaks when it is perceptually masked anyway.

Этап 7. Удаление средних и масштабирование (133, 134)Stage 7. Removing averages and scaling (133, 134)

Конечные коэффициенты масштабирования получаются после удаления средних и масштабирования на коэффициент в 0,85:The final scaling factors are obtained after removing the means and scaling by a factor of 0.85:

Поскольку кодек имеет дополнительное глобальное усиление, среднее значение может удаляться вообще без потерь информации. Удаление среднего значения также обеспечивает возможность более эффективного векторного квантования.Since the codec has additional global gain, the average value can be removed without any loss of information at all. Removing the mean also allows for more efficient vector quantization.

Масштабирование в 0,85 немного сжимает амплитуду кривой формирования шума. Оно имеет аналогичный перцепционный эффект с функцией разброса, упомянутой на этапе 6: уменьшенный шум квантования в пиках и увеличенный шум квантования во впадинах.Scaling to 0.85 compresses the amplitude of the noise shaping curve slightly. It has a similar perceptual effect to the scatter function mentioned in step 6: reduced quantization noise in the peaks and increased quantization noise in the valleys.

Этап 8. Квантование (141, 142)Stage 8. Quantization (141, 142)

Коэффициенты масштабирования квантуются с использованием векторного квантования, формируя индексы, которые затем пакетируются в поток битов и отправляются в декодер, и квантованные коэффициенты scfQ(n) масштабирования.The scaling factors are quantized using vector quantization, forming indices that are then packetized into a bit stream and sent to the decoder, and quantized scaling factors scfQ(n).

Этап 9. Интерполяция (121, 122)Stage 9. Interpolation (121, 122)

Квантованные коэффициенты scfQ(n) масштабирования интерполируются с использованием:The quantized scaling factors scfQ(n) are interpolated using:

и преобразуются обратно в линейную область с использованием:and converted back to a linear domain using:

Интерполяция используется для получения сглаженной кривой формирования шума, и таким образом вообще для исключения больших скачков амплитуды между смежными полосами частот.Interpolation is used to obtain a smooth noise shaping curve, and thus generally eliminate large amplitude jumps between adjacent frequency bands.

Этап 10. Формирование спектра (123)Stage 10. Spectrum formation (123)

Коэффициенты SNS g_SNS(b) масштабирования применяются к частотным линиям MDCT для каждой полосы частот отдельно, чтобы формировать спектр Xs(k) определенной формы:SNS g _SNS (b) scaling factors are applied to the MDCT frequency lines for each frequency band separately to produce a spectrum Xs(k) of a certain shape:

Фиг. 18 иллюстрирует предпочтительную реализацию устройства для декодирования кодированного аудиосигнала 250 (стереосигнала, кодированного в качестве L, R или M, S), содержащего информацию относительно кодированного спектрального представления и информацию относительно кодированного представления второго набора параметров масштабирования (отдельно объединенно кодированных). Декодер содержит входной интерфейс 200, спектральный декодер 210 (например, выполняющий обработку IGF либо обратную стереообработку или обработку деквантования), декодер 220 коэффициентов/параметров масштабирования, спектральный процессор 230 (например, для R, L) и преобразователь 240 (например, для R, L). Входной интерфейс 200 выполнен с возможностью приема кодированного аудиосигнала 250 и извлечения кодированного спектрального представления, которое перенаправляется в спектральный декодер 210, и извлечения кодированного представления второго набора коэффициентов масштабирования, который перенаправляется в декодер 220 коэффициентов масштабирования. Кроме того, спектральный декодер 210 выполнен с возможностью декодирования кодированного спектрального представления, чтобы получать декодированное спектральное представление, которое перенаправляется в спектральный процессор 230. Декодер 220 коэффициентов масштабирования выполнен с возможностью декодирования кодированного второго набора параметров масштабирования для получения первого набора параметров масштабирования, перенаправляемого в спектральный процессор 230. Первый набор коэффициентов масштабирования имеет число коэффициентов масштабирования или параметров масштабирования, которое больше числа коэффициентов масштабирования или параметров масштабирования во втором наборе. Спектральный процессор 230 выполнен с возможностью обработки декодированного спектрального представления с использованием первого набора параметров масштабирования для получения масштабированного спектрального представления. Затем масштабированное спектральное представление преобразуется преобразователем 240, чтобы в конечном счете получить декодированный аудиосигнал 260, представляющий собой стереосигнал или многоканальный сигнал более чем с двумя каналами.Fig. 18 illustrates a preferred implementation of an apparatus for decoding a coded audio signal 250 (a stereo signal encoded as L, R or M, S) containing information regarding a coded spectral representation and information regarding a coded representation of a second set of scaling parameters (separately joint coded). The decoder includes an input interface 200, a spectral decoder 210 (e.g., performing IGF processing or inverse stereo or dequantization processing), a factor/scaling parameter decoder 220, a spectral processor 230 (e.g., for R, L), and a converter 240 (e.g., for R, L). L). Input interface 200 is configured to receive the encoded audio signal 250 and extract the encoded spectral representation, which is forwarded to the spectral decoder 210, and extract the encoded representation of the second set of scale factors, which is forwarded to the scale factor decoder 220. In addition, the spectral decoder 210 is configured to decode the encoded spectral representation to obtain a decoded spectral representation, which is forwarded to the spectral processor 230. The scale factor decoder 220 is configured to decode the encoded second set of scaling parameters to obtain a first set of scaling parameters, forwarded to the spectral processor 230. The first set of scale factors has a number of scale factors or scaling parameters that is greater than the number of scale factors or scaling parameters in the second set. Spectral processor 230 is configured to process the decoded spectral representation using a first set of scaling parameters to obtain a scaled spectral representation. The scaled spectral representation is then transformed by converter 240 to ultimately produce a decoded audio signal 260 that is a stereo signal or a multi-channel signal with more than two channels.

Предпочтительно, декодер 220 коэффициентов масштабирования выполнен с возможностью работы практически таким же способом по сравнению с тем, что пояснено относительно спектрального процессора 120 по фиг. 11, связанного с вычислением третьего набора коэффициентов масштабирования или параметров масштабирования, как пояснено в связи с блоками 141 или 142 и, в частности, относительно блоков 121, 122 по фиг. 15. В частности, декодер коэффициентов масштабирования выполнен с возможностью выполнения по существу такой же процедуры для интерполяции и преобразования обратно в линейную область по сравнению с тем, что пояснено выше в отношении этапа 9. Таким образом, как проиллюстрировано на фиг. 19, декодер 220 коэффициентов масштабирования выполнен с возможностью применения таблицы 221 кодирования декодера к одному или более индексов в расчете на кадр, представляющих представление кодированного параметра масштабирования. После этого, интерполяция выполняется в блоке 222, которая представляет собой практически такую же интерполяцию, как та, что пояснена относительно блока 121 на фиг. 15. Далее используется преобразователь 223 в линейную область, который представляет собой практически такой же преобразователь 122 в линейную область по сравнению с тем, который пояснен относительно фиг. 15. Тем не менее, в других реализациях, блоки 221, 222, 223 могут работать отлично от того, что пояснено относительно соответствующих блоков на стороне кодера.Preferably, the scale factor decoder 220 is configured to operate in substantially the same manner as that explained with respect to the spectral processor 120 of FIG. 11 associated with calculating a third set of scaling factors or scaling parameters, as explained in connection with blocks 141 or 142 and, in particular, with respect to blocks 121, 122 of FIG. 15. In particular, the scale factor decoder is configured to perform substantially the same procedure for interpolation and conversion back to the linear domain as explained above with respect to step 9. Thus, as illustrated in FIG. 19, the scale factor decoder 220 is configured to apply the decoder coding table 221 to one or more per-frame indices representing a representation of the encoded scaling parameter. Thereafter, interpolation is performed at block 222, which is substantially the same interpolation as that explained with respect to block 121 in FIG. 15. Next, a linear domain converter 223 is used, which is substantially the same as the linear domain converter 122 as explained with respect to FIG. 15. However, in other implementations, blocks 221, 222, 223 may operate differently from what is explained regarding the corresponding blocks on the encoder side.

Кроме того, спектральный декодер 210, проиллюстрированный на фиг. 18 или 19, содержит блок модуля деквантования/декодера, который принимает в качестве ввода кодированный спектр и который выводит деквантованный спектр, который предпочтительно деквантуется с использованием глобального усиления, которое дополнительно передается из стороны кодера в сторону декодера в кодированном аудиосигнале в кодированной форме. Блок 210 также может выполнять обработку IGF или обратную стереообработку, такую как декодирование MS. Модуль деквантования/декодер 210, например, может содержать функциональность арифметического декодера или декодера Хаффмана, которая принимает, в качестве ввода, некоторые коды, и которая выводит индексы квантования, представляющие спектральные значения. После этого, эти индексы квантования вводятся в модуль деквантования вместе с глобальным усилением, и вывод представляет собой деквантованные спектральные значения, которые затем могут подвергаться обработке TNS, такой как обратное прогнозирование по частоте, в блоке 211 обработки декодера TNS, что, тем не менее, является факультативным. В частности, блок обработки декодера TNS дополнительно принимает вспомогательную информацию TNS, которая сформирована посредством блока 124 по фиг. 15, как указано посредством линии 129. Вывод этапа 211 обработки декодера TNS вводится в блок 212 формирования спектра, работающий для каждого канала отдельно с использованием отдельных коэффициентов масштабирования, причем первый набор коэффициентов масштабирования, вычисленный посредством декодера коэффициентов масштабирования, применяется к декодированному спектральному представлению, которое может или не может подвергаться обработке TNS в зависимости от обстоятельств, и вывод представляет собой масштабированное спектральное представление для каждого канала, которое затем вводится в преобразователь 240 по фиг. 18.In addition, the spectral decoder 210 illustrated in FIG. 18 or 19 includes a dequantization/decoder module block that takes as input a coded spectrum and that outputs a dequantized spectrum that is preferably dequantized using a global gain that is further transmitted from the encoder side to the decoder side in the encoded audio signal in encoded form. Block 210 may also perform IGF processing or inverse stereo processing such as MS decoding. Dequantization module/decoder 210, for example, may include arithmetic decoder or Huffman decoder functionality that takes as input certain codes and that outputs quantization indices representing spectral values. Thereafter, these quantization indices are input to the dequantization module along with the global gain, and the output is the dequantized spectral values, which can then be subjected to TNS processing, such as inverse frequency prediction, in the TNS decoder processing block 211, which, however, is optional. Specifically, the TNS decoder processing unit further receives the TNS auxiliary information that is generated by the block 124 of FIG. 15, as indicated by line 129. The output of the TNS decoder processing step 211 is input to a spectrum generation block 212 operating for each channel separately using separate scale factors, the first set of scale factors calculated by the scale factor decoder being applied to the decoded spectral representation. which may or may not be subject to TNS processing depending on the circumstances, and the output is a scaled spectral representation for each channel, which is then input to converter 240 of FIG. 18.

Далее поясняются дополнительные процедуры предпочтительных вариантов осуществления декодера.Further procedures of the preferred decoder embodiments are explained next.

Декодер:Decoder:

Этап 1. Квантование (221)Stage 1. Quantization (221)

Индексы модуля векторного квантования, сформированные на этапе 8 работы кодера, считываются из потока битов и используются для декодирования квантованных коэффициентов scfQ(n) масштабирования.The vector quantization module indices generated in step 8 of the encoder are read from the bitstream and used to decode the quantized scaling coefficients scfQ(n).

Этап 2. Интерполяция (222, 223)Stage 2. Interpolation (222, 223)

Одинаков с этапом 9 работы кодера.Same as step 9 of the encoder.

Этап 3. Формирование спектра (212)Stage 3. Spectrum formation (212)

Коэффициенты SNS g_SNS(b) масштабирования применяются к квантованным частотным линиям MDCT для каждой полосы частот отдельно, чтобы формировать декодированный спектр , как указано посредством следующего кода:SNS g _SNS (b) scaling factors are applied to the quantized MDCT frequency lines for each frequency band separately to generate the decoded spectrum , as specified by the following code:

Фиг. 16 и фиг. 17 иллюстрируют общую компоновку кодера/декодера, при этом фиг. 16 представляет реализацию без обработки TNS, тогда как фиг. 17 иллюстрирует реализацию, которая содержит обработку TNS. Аналогичные функциональности, проиллюстрированные на фиг. 16 и фиг. 17, соответствуют аналогичным функциональностям на других чертежах, на которых указаны такие же ссылочные позиции. В частности, как проиллюстрировано на фиг. 16, входной сигнал 160, например, стереосигнал или многоканальный сигнал вводится в ступень 110 преобразования, и после этого выполняется спектральная обработка 120. В частности, спектральная обработка отражается посредством кодера SNS, указываемого ссылочными позициями 123, 110, 130, 140, указывающих, что блок «кодер SNS» реализует функциональности, указываемые этими ссылочными позициями. После блока кодера SNS, выполняется операция 120b, 125 кодирования с квантованием, и кодированный сигнал вводится в поток битов, как указано в 180 на фиг. 16. Поток 180 битов затем возникает на стороне декодера, и после обратного квантования и декодирования, проиллюстрированного ссылочной позицией 210, операция декодера SNS, проиллюстрированная блоками 210, 220, 230 по фиг. 18, выполняется таким образом, что в конечном счете, после обратного преобразования 240, получается декодированный выходной сигнал 260.Fig. 16 and fig. 17 illustrates a general encoder/decoder layout, with FIG. 16 represents an implementation without TNS processing, while FIG. 17 illustrates an implementation that includes TNS processing. Similar functionality illustrated in FIG. 16 and fig. 17 correspond to similar functionality in the other drawings, in which the same reference numerals are indicated. In particular, as illustrated in FIG. 16, an input signal 160, such as a stereo signal or a multi-channel signal, is input to the conversion stage 110, and thereafter, spectral processing 120 is performed. Specifically, the spectral processing is reflected by an SNS encoder indicated by reference numerals 123, 110, 130, 140, indicating that the SNS encoder block implements the functionality indicated by these reference positions. After the SNS encoder block, a quantization encoding operation 120b, 125 is performed and the encoded signal is input into the bit stream as indicated at 180 in FIG. 16. The bit stream 180 then occurs at the decoder side, and after inverse quantization and decoding illustrated at 210, the SNS decoder operation illustrated at blocks 210, 220, 230 of FIG. 18 is performed such that ultimately, after deconversion 240, a decoded output signal 260 is obtained.

Фиг. 17 иллюстрирует представление, аналогичное представлению на фиг. 16, но указывается то, что, предпочтительно, обработка TNS выполняется после обработки SNS на стороне кодера, и, соответственно, обработка 211 TNS выполняется перед обработкой 212 SNS относительно последовательности обработки на стороне декодера.Fig. 17 illustrates a view similar to that of FIG. 16, but it is indicated that, preferably, the TNS processing is performed after the encoder-side SNS processing, and accordingly, the TNS processing 211 is performed before the SNS processing 212 relative to the decoder-side processing sequence.

Предпочтительно, используется дополнительное инструментальное средство TNS между формированием спектрального шума (SNS) и квантованием/кодированием (см. нижеприведенную блок-схему). TNS (формирование временного шума) также формирует шум квантования, но при этом выполняет формирование во временной области (в отличие от формирования в частотной области в SNS). TNS является полезным для сигналов, содержащим резкие атаки и для речевых сигналов.Preferably, an additional TNS tool is used between spectral noise generation (SNS) and quantization/coding (see block diagram below). TNS (time noise shaping) also generates quantization noise, but it performs time domain shaping (as opposed to frequency domain shaping in SNS). TNS is useful for signals containing sharp attacks and for speech signals.

TNS обычно применяется (например, в AAC) между преобразованием и SNS. Тем не менее, предпочтительно, предпочтительно применять TNS к спектру определенной формы. Это исключает некоторые артефакты, которые сформированы посредством декодера TNS при работе с кодеком на низких скоростях передачи битов.TNS is typically used (eg in AAC) between the transform and SNS. However, it is preferable to apply TNS to a specific spectrum shape. This eliminates some artifacts that are generated by the TNS decoder when running the codec at low bit rates.

Фиг. 20 иллюстрирует предпочтительное подразделение спектральных коэффициентов или спектральных линий, полученных посредством блока 100 на стороне кодера, на полосы частот. В частности, указывается то, что полосы нижних частот имеют меньшее число спектральных линий, чем полосы верхних частот.Fig. 20 illustrates the preferred division of spectral coefficients or spectral lines obtained by the encoder side block 100 into frequency bands. In particular, it is indicated that the low frequency bands have fewer spectral lines than the high frequency bands.

В частности, ось X на фиг. 20 соответствует индексу полос частот и иллюстрирует предпочтительный вариант осуществления 64 полос частот, и ось Y соответствует индексу спектральных линий, иллюстрирующих 320 спектральных коэффициентов в одном кадре. В частности, фиг. 20 примерно иллюстрирует ситуацию сверхширокополосного (SWB) случая, в котором предусмотрена частота дискретизации в 32 кГц.In particular, the X axis in FIG. 20 corresponds to an index of frequency bands and illustrates a preferred embodiment of 64 frequency bands, and the Y-axis corresponds to an index of spectral lines illustrating 320 spectral coefficients in one frame. In particular, FIG. 20 roughly illustrates the situation of the ultra-wideband (SWB) case, in which a sampling rate of 32 kHz is provided.

Для широкополосного случая, ситуация относительно отдельных полос частот является такой, что один кадр приводит к 160 спектральным линиям, и частота дискретизации составляет 16 кГц, так что, для обоих случаев, один кадр имеет длину во времени в 10 миллисекунд.For the wideband case, the situation regarding the individual frequency bands is such that one frame results in 160 spectral lines, and the sampling rate is 16 kHz, so that, for both cases, one frame has a time length of 10 milliseconds.

Фиг. 21 иллюстрирует дополнительные сведения по предпочтительной понижающей дискретизации, выполняемой в модуле 130 понижающей дискретизации по фиг. 11, либо по соответствующей повышающей дискретизации или интерполяции, выполняемой в декодере 220 коэффициентов масштабирования по фиг. 18 или так, как проиллюстрировано в блоке 222 по фиг. 19.Fig. 21 illustrates additional details on the preferred downsampling performed in the downsampling module 130 of FIG. 11, or by appropriate upsampling or interpolation performed in the scale factor decoder 220 of FIG. 18 or as illustrated at block 222 of FIG. 19.

Вдоль оси X, приводится индекс для полос 0-63 частот. В частности, имеются 64 полосы частот в диапазоне от 0 до 63.Along the X-axis, an index is given for frequency bands 0-63. Specifically, there are 64 frequency bands ranging from 0 to 63.

16 дискретизированных с понижением точек, соответствующих scfQ(i), проиллюстрированы в качестве вертикальных линий 1100. В частности, фиг. 21 иллюстрирует то, как определенная группировка параметров масштабирования выполняется для получения в конечном итоге дискретизированной с понижением точки 1100. В качестве примера, первый блок из четырех полос частот состоит из (0, 1, 2, 3), и средняя точка этого первого блока находится в 1,5, что указывается посредством элемента 1100 в индексе 1,5 вдоль оси X.16 downsampled points corresponding to scfQ(i) are illustrated as vertical lines 1100. In particular, FIG. 21 illustrates how certain grouping of scaling parameters is performed to obtain the ultimately downsampled point 1100. As an example, the first block of four frequency bands consists of (0, 1, 2, 3), and the midpoint of this first block is at 1.5, which is indicated by element 1100 at index 1.5 along the X-axis.

Соответственно, второй блок из четырех полос частот представляет собой (4, 5, 6, 7), и средняя точка второго блока составляет 5,5.Accordingly, the second block of four frequency bands is (4, 5, 6, 7), and the midpoint of the second block is 5.5.

Функции 1110 кодирования со взвешиванием соответствуют функциям w(k) кодирования со взвешиванием, поясненным относительно понижающей дискретизации на этапе 6, описанной выше. Можно видеть, что эти функции кодирования со взвешиванием центрируются в дискретизированных с понижением точках, и возникает перекрытие одного блока в каждую сторону, как пояснено выше.The weighted encoding functions 1110 correspond to the weighted encoding functions w(k) explained with respect to the downsampling in step 6 described above. It can be seen that these weighted encoding functions are centered at the downsampled points and there is an overlap of one block in each direction, as explained above.

Этап 222 интерполяции по фиг. 19 восстанавливает 64 полосы частот после 16 дискретизированных с понижением точек. Это видно на фиг. 21 посредством вычисления позиции любой из линий 1120 в качестве функции двух дискретизированных с понижением точек, указываемых в 1100, вокруг определенной линии 1120. Нижеприведенный пример примерно иллюстрирует это.Interpolation step 222 of FIG. 19 recovers 64 frequency bands after 16 downsampled points. This can be seen in Fig. 21 by calculating the position of any of the lines 1120 as a function of the two downsampled points indicated in 1100 around the determined line 1120. The following example roughly illustrates this.

Позиция второй полосы частот вычисляется в качестве функции от двух вертикальных линий вокруг нее (1,5 и 5,5):2=1,5+1/8x(5,5-1,5).The position of the second frequency band is calculated as a function of the two vertical lines around it (1.5 and 5.5): 2=1.5+1/8x(5.5-1.5).

Соответственно, позиция третьей полосы частот в качестве функции от двух вертикальных линий 1100 вокруг нее (1,5 и 5,5): 3=1,5+3/8x(5,5-1,5).Accordingly, the position of the third frequency band as a function of the two vertical lines 1100 around it (1.5 and 5.5): 3=1.5+3/8x(5.5-1.5).

Конкретная процедура выполняется для первых двух полос частот и последних двух полос частот. Для этих полос частот, интерполяция не может выполняться, поскольку не существуют вертикальные линии или значения, соответствующие вертикальным линиям 1100, за пределами диапазона, проходящего от 0 до 63. Таким образом, чтобы разрешать эту проблему, выполняется экстраполяция, как описано относительно этапа 9: интерполяция, как указано выше для двух полос частот 0, 1, с одной стороны, и 62 и 63, с другой стороны.The specific procedure is followed for the first two frequency bands and the last two frequency bands. For these frequency bands, interpolation cannot be performed because there are no vertical lines or values corresponding to the vertical lines 1100 outside the range running from 0 to 63. Thus, to resolve this problem, extrapolation is performed as described in step 9: interpolation as above for two frequency bands 0, 1 on the one hand, and 62 and 63 on the other hand.

Далее поясняется предпочтительная реализация преобразователя 100 по фиг. 11, с одной стороны, и преобразователя 240 по фиг. 18, с другой стороны.Next, a preferred implementation of the converter 100 of FIG. 11 on the one hand, and the converter 240 of FIG. 18, on the other hand.

В частности, фиг. 22a иллюстрирует расписание для указания кадрирования, выполняемого на стороне кодера в преобразователе 100. Фиг. 22b иллюстрирует предпочтительную реализацию преобразователя 100 по фиг. 11 на стороне кодера, и фиг. 22c иллюстрирует предпочтительную реализацию преобразователя 240 на стороне декодера.In particular, FIG. 22a illustrates a schedule for indicating framing performed on the encoder side of converter 100. FIG. 22b illustrates a preferred implementation of the converter 100 of FIG. 11 on the encoder side, and FIG. 22c illustrates a preferred implementation of decoder-side converter 240.

Преобразователь 100 на стороне кодера предпочтительно реализуется с возможностью выполнения кадрирования с перекрывающимися кадрами, к примеру, с 50%-м перекрытием, так что кадр 2 перекрывается с кадром 1, и кадр 3 перекрывается с кадром 2 и кадром 4. Тем не менее, также могут выполняться другие перекрытия или неперекрывающаяся обработка, но предпочтительно выполнять 50%-е перекрытие вместе с алгоритмом MDCT. С этой целью, преобразователь 100 содержит функцию 101 аналитического кодирования со взвешиванием и последующий соединенный спектральный преобразователь 102 для выполнения обработки FFT, обработки MDCT или любого другого вида обработки временно-спектрального преобразования, чтобы получать последовательность кадров, соответствующих последовательности спектральных представлений, вводимых на фиг. 11 в блоки после преобразователя 100.The encoder-side converter 100 is preferably implemented with the ability to perform framing with overlapping frames, for example, with 50% overlap, such that frame 2 overlaps with frame 1, and frame 3 overlaps with frame 2 and frame 4. However, also Other overlap or non-overlap processing may be performed, but it is preferable to perform 50% overlap along with the MDCT algorithm. To this end, transformer 100 includes an analytical weighted encoding function 101 and a subsequent coupled spectral transformer 102 for performing FFT processing, MDCT processing, or any other kind of time-spectral transform processing to obtain a sequence of frames corresponding to the sequence of spectral representations input in FIG. 11 into blocks after converter 100.

Соответственно, масштабированное спектральное представление(я) вводятся в преобразователь 240 по фиг. 18. В частности, преобразователь содержит временной преобразователь 241, реализующий обратную операцию FFT, обратную операцию MDCT или соответствующую операцию спектрально-временного преобразования. Вывод вставляется в функцию 242 синтезирующего кодирования со взвешиванием, и вывод функции 242 синтезирующего кодирования со взвешиванием вводится в процессор 243 сложения с перекрытием, чтобы выполнять операцию сложения с перекрытием, с тем чтобы в конечном счете получать декодированный аудиосигнал. В частности, обработка сложения с перекрытием в блоке 243, например, выполняет последовательное выборочное сложение между соответствующими выборками второй половины, например, кадра 3 и первой половины кадра 4, так что получаются значения аудиодискретизации для перекрытия между кадром 3 и кадром 4, как указано посредством элемента 1200 на фиг. 22a. Аналогичные операции сложения с перекрытием последовательным выборочным способом выполняются для получения оставшихся значений аудиодискретизации декодированного выходного аудиосигнала.Accordingly, the scaled spectral representation(s) are input to converter 240 of FIG. 18. In particular, the converter includes a time converter 241 implementing an inverse FFT operation, an inverse MDCT operation, or a corresponding spectral-temporal transform operation. The output is inserted into the weighted synthesis encoding function 242, and the output of the weighted synthesis encoding function 242 is input to the overlap addition processor 243 to perform an overlap addition operation so as to ultimately obtain a decoded audio signal. In particular, the overlap add processing in block 243, for example, performs sequential sample addition between corresponding samples of the second half of, for example, frame 3 and the first half of frame 4, such that audio sampling values are obtained for the overlap between frame 3 and frame 4, as indicated by element 1200 in FIG. 22a. Similar overlap addition operations in a sequential selective manner are performed to obtain the remaining audio sampling values of the decoded output audio signal.

Здесь следует отметить, что все альтернативы или аспекты, поясненные выше, и все аспекты, заданные посредством независимых пунктов в нижеприведенной формуле изобретения, могут использоваться отдельно, т.е. без альтернатив или целей, отличных от предполагаемой альтернативы, цели или независимого пункта формулы изобретения. Тем не менее, в других вариантах осуществления, две или более из альтернатив или аспектов или независимых пунктов формулы изобретения могут комбинироваться друг с другом, и, в других вариантах осуществления, все аспекты или альтернативы и все независимые пункты формулы изобретения могут комбинироваться друг с другом.It should be noted here that all alternatives or aspects explained above and all aspects specified by independent claims in the following claims can be used separately, i.e. without alternatives or purposes other than the intended alternative, purpose or independent claim. However, in other embodiments, two or more of the alternatives or aspects or independent claims may be combined with each other, and, in other embodiments, all aspects or alternatives and all independent claims may be combined with each other.

Хотя выше описаны дополнительные аспекты, прилагаемая формула изобретения указывают два различных аспекта, т.е. аудиодекодер, аудиокодер и соответствующие способы с использованием объединенного кодирования параметров масштабирования для каналов многоканального аудиосигнала, либо устройство квантования аудиоданных, устройство деквантования аудиоданных или соответствующие способы. Эти два аспекта могут комбинироваться или использоваться отдельно, в зависимости от обстоятельств, и изобретения в соответствии с этими аспектами являются применимыми к другому варианту применения аудиообработки, отличающемуся от вышеописанных конкретных вариантов применения.Although additional aspects have been described above, the appended claims indicate two different aspects, i.e. an audio decoder, an audio encoder, and related methods using joint encoding of scaling parameters for channels of a multi-channel audio signal, or an audio data quantizer, an audio data dequantizer, or related methods. These two aspects may be combined or used separately, depending on the circumstances, and the inventions in accordance with these aspects are applicable to other audio processing applications other than the specific applications described above.

Кроме того, следует обратиться к дополнительным фиг. 3a, 3b, 4a, 4b, 5, 6, 8a, 8b, иллюстрирующим первый аспект, и фиг. 9a, 9b, иллюстрирующим второй аспект, и фиг. 7a, 7b, иллюстрирующим второй аспект, применяемый в первом аспекте.In addition, reference should be made to supplementary FIGS. 3a, 3b, 4a, 4b, 5, 6, 8a, 8b illustrating the first aspect, and FIG. 9a, 9b illustrating the second aspect, and FIG. 7a, 7b illustrating the second aspect applied to the first aspect.

Изобретательный кодированный сигнал может сохраняться на цифровом носителе хранения данных или постоянном носителе хранения данных или может передаваться по среде передачи, такой как беспроводная среда передачи или проводная среда передачи, к примеру, Интернет.The inventive encoded signal may be stored on a digital storage medium or a non-transitory storage medium, or may be transmitted over a transmission medium such as a wireless transmission medium or a wired transmission medium, for example, the Internet.

Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогичным образом, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего устройства.Although certain aspects are described in the context of an apparatus, it will be appreciated that these aspects also represent a description of the corresponding method, wherein the block or apparatus corresponds to a method step or a feature of a method step. Likewise, aspects described in the context of a method step also provide a description of the corresponding block or element, or feature of the corresponding device.

В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные на нем считываемые электронными средствами управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ.Depending on certain implementation requirements, embodiments of the invention may be implemented in hardware or software. An implementation may be performed using a digital storage medium, such as a floppy disk, DVD, CD, ROM, PROM, EPROM, EEPROM, or flash memory, having electronically readable control signals stored therein that interact (or are interoperable) with the programmable computer system in such a way that the appropriate method is carried out.

Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий считываемые электронными средствами управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.Some embodiments of the invention include a storage medium having electronically readable control signals that are capable of interacting with a programmable computer system in a manner that implements one of the methods described herein.

В общем случае, варианты осуществления настоящего изобретения могут быть реализованы в виде компьютерного программного продукта с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может сохраняться на машиночитаемом носителе.In general, embodiments of the present invention may be implemented as a computer program product with program code, wherein the program code is configured to implement one of the methods when the computer program product runs on a computer. The program code, for example, may be stored on a computer-readable medium.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе или на постоянном носителе хранения данных.Other embodiments comprise a computer program for performing one of the methods described herein stored on a computer-readable medium or a non-transitory storage medium.

Другими словами, таким образом вариант осуществления способа согласно изобретению представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа выполняется на компьютере.In other words, therefore, an embodiment of the method according to the invention is a computer program having program code for carrying out one of the methods described herein when the computer program is executed on a computer.

Следовательно, дополнительный вариант осуществления способов согласно изобретению представляет собой носитель хранения данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную на нём компьютерную программу для осуществления одного из способов, описанных в данном документе.Therefore, a further embodiment of the methods of the invention is a storage medium (digital storage medium or computer readable medium) containing a computer program stored thereon for performing one of the methods described herein.

Следовательно, дополнительный вариант осуществления способа согласно изобретению представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.Therefore, a further embodiment of the method of the invention is a data stream or signal sequence representing a computer program for implementing one of the methods described herein. The data stream or signal sequence, for example, may be configured to be transmitted over a data connection, such as the Internet.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществления одного из способов, описанных в данном документе.An additional embodiment comprises processing means, such as a computer or programmable logic device, configured to implement one of the methods described herein.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.A further embodiment comprises a computer having a computer program installed for performing one of the methods described herein.

В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнять части или всех из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором для осуществления одного из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого устройства аппаратного обеспечения.In some embodiments, a programmable logic device (eg, a field programmable gate array) may be used to perform part or all of the functionality of the methods described herein. In some embodiments, a field programmable gate array may interface with a microprocessor to implement one of the methods described herein. In general, the methods are preferably implemented through any hardware device.

Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных подробностей, представленных посредством описания и пояснения вариантов осуществления в данном документе.The above-described embodiments are merely illustrative of the principles of the present invention. It should be understood that modifications and changes to the arrangements and details described herein will be apparent to those skilled in the art. Accordingly, they are intended to be limited only by the scope of the claims below and not by the specific details provided by the description and explanation of the embodiments herein.

Далее обобщаются дополнительные варианты осуществления/примеры:Additional embodiments/examples are summarized below:

1. Устройство квантования аудиоданных для квантования множества информационных аудиоэлементов, содержащее:1. An audio data quantization device for quantizing a plurality of audio information elements, comprising:

- модуль (141, 143) векторного квантования первой ступени для квантования множества информационных аудиоэлементов для определения результата векторного квантования первой ступени, и множества промежуточных квантованных элементов, соответствующих результату векторного квантования первой ступени;- a first-stage vector quantization module (141, 143) for quantizing a plurality of audio information elements to determine the result of the first-stage vector quantization, and a plurality of intermediate quantized elements corresponding to the first-stage vector quantization result;

- модуль (142) определения остаточных элементов для вычисления множества остаточных элементов из множества промежуточных квантованных элементов и множества информационных аудиоэлементов; и- a residual element determination module (142) for calculating a plurality of residual elements from a plurality of intermediate quantized elements and a plurality of audio information elements; And

- модуль (145) векторного деквантования второй ступени для квантования множества остаточных элементов для получения результата векторного квантования второй ступени, при этом результат векторного квантования первой ступени и результат векторного квантования второй ступени представляют собой квантованное представление множества информационных аудиоэлементов.- a second stage vector dequantization module (145) for quantizing a plurality of residual elements to obtain a second stage vector quantization result, wherein the first stage vector quantization result and the second stage vector quantization result are a quantized representation of the plurality of audio information elements.

2. Устройство квантования аудиоданных по примеру 1, в котором модуль (142) определения остаточных элементов выполнен с возможностью вычисления для каждого остаточного элемента разности между соответствующим информационным аудиоэлементом и соответствующим промежуточным квантованным элементом.2. An audio data quantization device according to example 1, in which the residual element determination module (142) is configured to calculate, for each residual element, the difference between the corresponding audio information element and the corresponding intermediate quantized element.

3. Устройство квантования аудиоданных по примеру 1 или 2, в котором модуль (142) определения остаточных элементов выполнен с возможностью усиления или взвешивания для каждого остаточного элемента разности между соответствующим информационным аудиоэлементом и соответствующим промежуточным квантованным элементом таким образом, что множество остаточных элементов больше соответствующих разностей, либо усиливать или взвешивать множество информационных аудиоэлементов и/или множество промежуточных квантованных элементов перед вычислением разности между усиленными элементами для получения остаточных элементов.3. An audio data quantization device according to example 1 or 2, in which the residual element determination module (142) is configured to amplify or weight for each residual element the difference between the corresponding audio information element and the corresponding intermediate quantized element such that the plurality of residual elements is greater than the corresponding differences , or amplify or weight a plurality of audio information elements and/or a plurality of intermediate quantized elements before calculating the difference between the amplified elements to obtain residual elements.

4. Устройство квантования аудиоданных по одному из предшествующих примеров,4. An audio data quantization device according to one of the previous examples,

- в котором модуль (142) определения остаточных элементов выполнен с возможностью деления соответствующих разностей между множеством промежуточных квантованных элементов и информационными аудиоэлементами на заданный коэффициент, меньший 1, либо умножения соответствующих разностей между множеством промежуточных квантованных элементов и информационными аудиоэлементами на заданный коэффициент больше 1.- in which the residual element determination module (142) is configured to divide the corresponding differences between the plurality of intermediate quantized elements and the audio information elements by a given coefficient less than 1, or multiply the corresponding differences between the plurality of intermediate quantized elements and the audio information elements by a given coefficient greater than 1.

5. Устройство квантования аудиоданных по одному из предшествующих примеров,5. An audio data quantization device according to one of the previous examples,

- в котором модуль (141, 143) векторного квантования первой ступени выполнен с возможностью выполнения квантования с первой точностью квантования, при этом модуль (145) векторного квантования второй ступени выполнен с возможностью выполнения квантования со второй точностью квантования, и при этом вторая точность квантования меньше или больше первой точности квантования, или- in which the first-stage vector quantization module (141, 143) is configured to perform quantization with a first quantization accuracy, while the second-stage vector quantization module (145) is configured to perform quantization with a second quantization accuracy, and wherein the second quantization accuracy is less or greater than the first quantization precision, or

- при этом модуль (141, 143) векторного квантования первой ступени выполнен с возможностью выполнения квантования с фиксированной скоростью, и при этом модуль (145) векторного квантования второй ступени выполнен с возможностью выполнения квантования с переменной скоростью.- wherein the first stage vector quantization module (141, 143) is configured to perform quantization at a fixed rate, and the second stage vector quantization module (145) is configured to perform quantization at a variable rate.

6. Устройство квантования аудиоданных по одному из предшествующих примеров, в котором модуль (141, 143) векторного квантования первой ступени выполнен с возможностью использования таблицы кодирования первой ступени, имеющей первое число записей, при этом модуль (145) векторного квантования второй ступени выполнен с возможностью использования таблицы кодирования второй ступени, имеющей второе число записей, и при этом второе число записей меньше или больше первого числа записей.6. An audio data quantization device according to one of the previous examples, in which the first stage vector quantization module (141, 143) is configured to use a first stage coding table having a first number of entries, and the second stage vector quantization module (145) is configured to using a second stage coding table having a second number of entries, and wherein the second number of entries is less than or greater than the first number of entries.

7. Устройство квантования аудиоданных по одному из предшествующих примеров,7. An audio data quantization device according to one of the previous examples,

- в котором информационные аудиоэлементы представляют собой параметры масштабирования для кадра аудиосигнала, применимого для масштабирования аудиовыборок временной области аудиосигнала во временной области или применимого для масштабирования аудиовыборок спектральной области аудиосигнала в спектральной области, при этом каждый параметр масштабирования является применимым для масштабирования по меньшей мере двух аудиовыборок временной области или спектральной области, при этом кадр содержит первое число параметров масштабирования,- wherein the audio information elements are scaling parameters for a frame of an audio signal applicable to scaling time domain audio samples of a time domain audio signal or applicable to scaling spectral domain audio samples of a spectral domain audio signal, wherein each scaling parameter is applicable to scaling at least two time domain audio samples region or spectral region, wherein the frame contains a first number of scaling parameters,

- при этом модуль (141, 143) векторного квантования первой ступени выполнен с возможностью выполнения разбиения первого числа параметров масштабирования на два или более наборов параметров масштабирования, и при этом модуль (141, 143) векторного квантования первой ступени выполнен с возможностью определения индекса квантования для каждого набора параметров масштабирования для получения множества индексов квантования, представляющих первый результат квантования.- wherein the first stage vector quantization module (141, 143) is configured to perform partitioning of the first number of scaling parameters into two or more sets of scaling parameters, and wherein the first stage vector quantization module (141, 143) is configured to determine the quantization index for each set of scaling parameters to obtain a plurality of quantization indices representing the first quantization result.

8. Устройство квантования аудиоданных по примеру 7, в котором модуль (141, 143) векторного квантования первой ступени выполнен с возможностью комбинирования первого индекса квантования для первого набора и второго индекса квантования для второго набора для получения одного индекса в качестве первого результата квантования.8. The audio data quantization apparatus of Example 7, wherein the first stage vector quantization unit (141, 143) is configured to combine the first quantization index for the first set and the second quantization index for the second set to obtain one index as the first quantization result.

9. Устройство квантования аудиоданных по примеру 8,9. Audio data quantization device according to example 8,

- в котором модуль (141, 143) векторного квантования первой ступени выполнен с возможностью умножения одного из первого и второго индекса на число, соответствующее числу битов первого и второго индекса, и сложения умноженного индекса и неумноженного индекса для получения одного индекса.- in which the first stage vector quantization module (141, 143) is configured to multiply one of the first and second index by a number corresponding to the number of bits of the first and second index, and add the multiplied index and the non-multiplied index to obtain one index.

10. Устройство квантования аудиоданных по одному из предшествующих примеров,10. Audio data quantization device according to one of the previous examples,

- в котором модуль (145) векторного квантования второй ступени представляет собой алгебраический модуль векторного квантования, при этом каждый индекс содержит индекс базовой таблицы кодирования и индекс расширения Вороного.- in which the second stage vector quantization module (145) is an algebraic vector quantization module, each index containing a base coding table index and a Voronoi extension index.

11. Устройство квантования аудиоданных по одному из предшествующих примеров,11. An audio data quantization device according to one of the previous examples,

- в котором модуль (141, 143) векторного квантования первой ступени выполнен с возможностью выполнения первого разбиения множества информационных аудиоэлементов,- in which the first stage vector quantization module (141, 143) is configured to perform a first partition of a plurality of audio information elements,

- при этом модуль (145) векторного квантования второй ступени выполнен с возможностью выполнения второго разбиения множества остаточных элементов,- in this case, the second stage vector quantization module (145) is configured to perform a second partition of the plurality of residual elements,

- при этом первое разбиение приводит к первому числу поднаборов информационных аудиоэлементов, и второе разбиение приводит к второму числу поднаборов остаточных элементов, при этом первое число поднаборов равно второму числу поднаборов.wherein the first split results in a first number of subsets of audio information elements, and the second split results in a second number of subsets of residual elements, wherein the first number of subsets is equal to the second number of subsets.

12. Устройство квантования аудиоданных по одному из предшествующих примеров,12. An audio data quantization device according to one of the previous examples,

- в котором первый модуль векторного квантования выполнен с возможностью вывода из первого поиска в таблице кодирования первого индекса, имеющего первое число битов,- wherein the first vector quantization module is configured to derive from the first search in the coding table a first index having a first number of bits,

- при этом второй модуль векторного квантования выполнен с возможностью вывода для поиска во второй таблице кодирования второго индекса, имеющего второе число битов, причем второе число битов меньше или больше первого числа битов.- wherein the second vector quantization module is configured to output for searching in the second coding table a second index having a second number of bits, wherein the second number of bits is less than or greater than the first number of bits.

13. Устройство квантования аудиоданных по примеру 12,13. Audio data quantization device according to example 12,

- в котором первое число битов представляет собой число битов между 4 и 7, и при этом второе число битов представляет собой число битов между 3 и 6.- wherein the first number of bits is a number of bits between 4 and 7, and wherein the second number of bits is a number of bits between 3 and 6.

14. Устройство квантования аудиоданных по одному из предшествующих примеров,14. An audio data quantization device according to one of the previous examples,

- в котором информационные аудиоэлементы содержат, для первого кадра многоканального аудиосигнала, первое множество параметров масштабирования для первого канала многоканального аудиосигнала и второе множество параметров масштабирования для второго канала многоканального аудиосигнала,- wherein the audio information elements comprise, for a first frame of the multi-channel audio signal, a first set of scaling parameters for the first channel of the multi-channel audio signal and a second set of scaling parameters for the second channel of the multi-channel audio signal,

- при этом устройство квантования аудиоданных выполнено с возможностью применения модулей векторного квантования первого и второй ступени к первому множеству и второму множеству первого кадра,- in this case, the audio data quantization device is configured to apply vector quantization modules of the first and second stages to the first set and second set of the first frame,

- при этом информационные аудиоэлементы содержат, для второго кадра многоканального аудиосигнала, третье множество средних параметров масштабирования и четвертое множество боковых параметров масштабирования, и- wherein the audio information elements comprise, for the second frame of the multi-channel audio signal, a third set of middle scaling parameters and a fourth set of side scaling parameters, and

- при этом устройство квантования аудиоданных выполнено с возможностью применения модулей векторного квантования первого и второй ступени к третьему множеству средних параметров масштабирования и применения второй ступени модуля векторного квантования к четвертому множеству боковых параметров масштабирования и неприменения модуля (141, 143) векторного квантования первой ступени к четвертому множеству боковых параметров масштабирования.- wherein the audio data quantization device is configured to apply vector quantization modules of the first and second stages to the third set of average scaling parameters and apply the second stage of the vector quantization module to the fourth set of side scaling parameters and not apply the vector quantization module (141, 143) of the first stage to the fourth many side scaling options.

15. Устройство квантования аудиоданных по примеру 14,15. Audio data quantization device according to example 14,

- в котором модуль (142) определения остаточных элементов выполнен с возможностью усиления или взвешивания для второго кадра четвертого множества боковых параметров масштабирования, и при этом модуль (145) векторного квантования второй ступени выполнен с возможностью обработки усиленных или взвешенных боковых параметров масштабирования для второго кадра многоканального аудиосигнала.- wherein the residual element determination module (142) is configured to amplify or weight for the second frame the fourth set of side scaling parameters, and wherein the second stage vector quantization module (145) is configured to process the amplified or weighted side scaling parameters for the second frame of the multi-channel audio signal.

16. Устройство деквантования аудиоданных для деквантования квантованного множества информационных аудиоэлементов, содержаще:16. An audio data dequantization device for dequantizing a quantized set of audio information elements, containing:

- модуль (2220) векторного деквантования первой ступени для деквантования результата векторного квантования первой ступени, включенного в квантованное множество информационных аудиоэлементов для получения множества промежуточных квантованных информационных аудиоэлементов;- a first stage vector dequantization module (2220) for dequantizing a first stage vector quantization result included in the quantized plurality of audio information elements to obtain a plurality of intermediate quantized audio information elements;

- модуль (2260) векторного деквантования второй ступени для деквантования результата векторного квантования второй ступени, включенного в квантованное множество информационных аудиоэлементов для получения множества остаточных элементов; и- a second stage vector dequantization module (2260) for dequantizing a second stage vector quantization result included in the quantized set of audio information elements to obtain a plurality of residual elements; And

- модуль (2240) комбинирования для комбинирования множества промежуточных квантованных информационных элементов и множества остаточных элементов для получения деквантованного множества информационных аудиоэлементов.- a combining module (2240) for combining a plurality of intermediate quantized information elements and a plurality of residual elements to obtain a dequantized plurality of audio information elements.

17. Устройство деквантования аудиоданных по примеру 16, в котором модуль (2240) комбинирования выполнен с возможностью вычисления для каждого деквантованного информационного элемента суммы между соответствующим промежуточным квантованным информационным аудиоэлементом и соответствующим остаточным элементом.17. The audio data dequantization apparatus of Example 16, wherein the combining unit (2240) is configured to calculate, for each dequantized information element, a sum between the corresponding intermediate quantized audio information element and the corresponding residual element.

18. Устройство деквантования аудиоданных по одному из примеров 16 или 17,18. Audio data dequantization device according to one of examples 16 or 17,

- в котором модуль (2240) комбинирования выполнен с возможностью обеспечения ослабления или взвешивания множества остаточных элементов таким образом, что остаточные элементы с ослаблением ниже соответствующих остаточных элементов до выполнения ослабления, и- wherein the combining module (2240) is configured to provide attenuation or weighting of a plurality of residual elements such that the attenuated residual elements are lower than the corresponding residual elements before the attenuation is performed, and

- при этом модуль (2240) комбинирования выполнен с возможностью сложения остаточных элементов с ослаблением с соответствующими промежуточными квантованными информационными аудиоэлементами,- wherein the combining module (2240) is configured to add the residual elements with attenuation with the corresponding intermediate quantized audio information elements,

- или:- or:

- при этом модуль (2240) комбинирования выполнен с возможностью использования значения ослабления или взвешивания ниже 1 для обеспечения ослабления множества остаточных элементов или объединенно кодированных параметров масштабирования до выполнения комбинирования, при этом комбинирование выполняется с использованием остаточных значений с ослаблением, и/или- wherein the combining module (2240) is configured to use an attenuation or weighting value below 1 to provide attenuation of the plurality of residuals or jointly encoded scaling parameters before performing the combining, wherein the combining is performed using the attenuated residuals, and/or

- при этом, в качестве примера, значение взвешивания или ослабления используется для умножения параметра масштабирования на значение взвешивания или усиления, при этом значение взвешивания предпочтительно составляет между 0,1 и 0,9, или более предпочтительно, между 0,2 и 0,6, или еще более предпочтительно, между 0,25 и 0,4, и/или- wherein, as an example, the weighting or attenuation value is used to multiply the scaling parameter by the weighting or gain value, the weighting value being preferably between 0.1 and 0.9, or more preferably between 0.2 and 0.6 , or even more preferably between 0.25 and 0.4, and/or

- при этом одинаковое значение ослабления или взвешивания используется для всех параметров масштабирования множества остаточных элементов или любых объединенно кодированных параметров масштабирования.wherein the same attenuation or weighting value is used for all scaling parameters of the plurality of residual elements or any jointly coded scaling parameters.

19. Устройство деквантования аудиоданных по примеру 18, в котором модуль (2240) комбинирования выполнен с возможностью умножения соответствующего остаточного элемента на весовой коэффициент меньше единицы, или деления соответствующего остаточного элемента на весовой коэффициент больше единицы.19. The audio data dequantization apparatus of Example 18, wherein the combining module (2240) is configured to multiply the corresponding residual element by a weighting factor less than one, or divide the corresponding residual element by a weighting factor greater than one.

20. Устройство деквантования аудиоданных по одному из примеров 16-19,20. Audio data dequantization device according to one of examples 16-19,

- в котором модуль деквантования первой ступени выполнен с возможностью выполнения деквантования с первой точностью,- in which the first stage dequantization module is configured to perform dequantization with first precision,

- при этом модуль деквантования второй ступени выполнен с возможностью выполнения деквантования со второй точностью, при этом вторая точность меньше или больше первой точности.- wherein the second stage dequantization module is configured to perform dequantization with a second precision, wherein the second precision is less or greater than the first precision.

21. Устройство деквантования аудиоданных по одному из примеров 16-20,21. Audio data dequantization device according to one of examples 16-20,

- в котором модуль деквантования первой ступени выполнен с возможностью использования таблицы кодирования первой ступени, имеющую первое число записей, при этом модуль деквантования второй ступени выполнен с возможностью использования таблицы кодирования второй ступени, имеющей второе число записей, и при этом второе число записей меньше или больше первого числа записей, или- wherein the first stage dequantization module is configured to use a first stage coding table having a first number of entries, wherein the second stage dequantization module is configured to use a second stage coding table having a second number of entries, and wherein the second number of entries is less than or greater than the first number of records, or

- при этом модуль деквантования первой ступени выполнен с возможностью приёма, для извлечения из первой таблицы кодирования первого индекса, имеющего первое число битов,- wherein the first stage dequantization module is configured to receive, to extract from the first coding table the first index having the first number of bits,

- при этом модуль (2260) векторного деквантования второй ступени выполнен с возможностью приёма для извлечения из второй таблицы кодирования, второго индекса, имеющего второе число битов, причем второе число битов меньше или больше первого числа битов, или при этом, в качестве примера, первое число битов представляет собой число битов между 4 и 7, и при этом, в качестве примера, второе число битов представляет собой число битов между 3 и 6.- wherein the second stage vector dequantization module (2260) is configured to receive, for extraction from the second coding table, a second index having a second number of bits, wherein the second number of bits is less than or greater than the first number of bits, or, as an example, the first the number of bits is the number of bits between 4 and 7, and herein, as an example, the second number of bits is the number of bits between 3 and 6.

22. Устройство деквантования аудиоданных по одному из примеров 16-21,22. Audio data dequantization device according to one of examples 16-21,

- в котором деквантованное множество информационных аудиоэлементов представляют собой параметры масштабирования для кадра аудиосигнала, применимого для масштабирования аудиовыборок временной области аудиосигнала во временной области или применимого для масштабирования аудиовыборок спектральной области аудиосигнала в спектральной области, при этом каждый параметр масштабирования является применимым для масштабирования по меньшей мере двух аудиовыборок временной области или спектральной области, при этом кадр содержит первое число параметров масштабирования,- wherein the dequantized plurality of audio information elements represent scaling parameters for a frame of an audio signal applicable to scaling time domain audio samples of a time domain audio signal or applicable to scaling spectral domain audio samples of a spectral domain audio signal, wherein each scaling parameter is applicable to scaling at least two time domain or spectral domain audio samples, wherein the frame contains a first number of scaling parameters,

- при этом модуль деквантования первой ступени выполнен с возможностью определения из двух или более результирующих индексов для результата векторного квантования первой ступени первого набора и второго набора параметров масштабирования, и- wherein the first stage dequantization module is configured to determine from two or more resulting indices for the result of vector quantization of the first stage of the first set and the second set of scaling parameters, and

- при этом векторный модуль (2220) деквантования первой ступени или модуль (2240) комбинирования выполнен с возможностью сбора первого набора параметров масштабирования и второго набора параметров масштабирования в вектор для получения первого числа промежуточных квантованных параметров масштабирования.wherein the first stage vector dequantization module (2220) or combining module (2240) is configured to collect the first set of scaling parameters and the second set of scaling parameters into a vector to obtain a first number of intermediate quantized scaling parameters.

23. Устройство деквантования аудиоданных по примеру 22,23. Audio data dequantization device according to example 22,

- в котором модуль (2220) векторного деквантования первой ступени выполнен с возможностью извлечения в качестве результата деквантования первой ступени одного комбинированного индекса и обработки одного комбинированного индекса для получения двух или более результирующих индексов.- in which the first stage vector dequantization module (2220) is configured to extract one combined index as a result of the first stage dequantization and process one combined index to obtain two or more resulting indices.

24. Устройство деквантования аудиоданных по примеру 23,24. Audio data dequantization device according to example 23,

- в котором модуль деквантования первой ступени выполнен с возможностью извлечения первого результирующего индекса посредством определения остатка от деления и извлечения второго результирующего индекса посредством определения целочисленного результата из деления.- in which the first stage dequantization module is configured to extract the first result index by determining the remainder of the division and extract the second result index by determining the integer result from the division.

25. Устройство деквантования аудиоданных по одному из примеров 16 в 24, в котором модуль (2260) векторного деквантования второй ступени представляет собой алгебраический модуль векторного деквантования, при этом каждый индекс содержит индекс базовой таблицы кодирования и индекс расширения Вороного.25. The audio data dequantization apparatus of one of Examples 16 to 24, wherein the second stage vector dequantization module (2260) is an algebraic vector dequantization module, each index comprising a base codebook index and a Voronoi expansion index.

26. Устройство деквантования аудиоданных по одному из примеров 16-25,26. Audio data dequantization device according to one of examples 16-25,

- в котором модуль (2220) векторного деквантования первой ступени или модуль (2240) комбинирования выполнен с возможностью сбора первого набора параметров масштабирования и второго набора параметров масштабирования из разбиения квантования в кадре аудиосигнала,- wherein the first stage vector dequantization module (2220) or combining module (2240) is configured to collect the first set of scaling parameters and the second set of scaling parameters from the quantization partition in the audio signal frame,

- при этом модуль (2260) векторного деквантования второй ступени выполнен с возможностью сбора первого набора остаточных параметров и второго набора остаточных параметров из разбиения остаточных параметров, и- wherein the second stage vector dequantization module (2260) is configured to collect the first set of residual parameters and the second set of residual parameters from the partition of the residual parameters, and

- при этом число разбиений, разрешаемое посредством модуля деквантования первого вектора, и другое число разбиений, разрешаемое посредством модуля (2260) векторного деквантования второй ступени, являются равными.- in this case, the number of partitions resolved by the first vector dequantization module and the other number of partitions resolved by the second stage vector dequantization module (2260) are equal.

27. Устройство деквантования аудиоданных по одному из примеров 16-26,27. Audio data dequantization device according to one of examples 16-26,

- в котором модуль (2220) векторного деквантования первой ступени выполнен с возможностью использования первого индекса, имеющего первое число битов, для формирования множества промежуточных квантованных информационных аудиоэлементов, и- wherein the first stage vector dequantization module (2220) is configured to use a first index having a first number of bits to generate a plurality of intermediate quantized audio information elements, and

- при этом модуль (2260) векторного деквантования второй ступени выполнен с возможностью использования в качестве индекса второго индекса, имеющего второе число битов, для получения множества остаточных элементов, при этом второе число битов меньше или больше первого числа битов.- wherein the second stage vector dequantization module (2260) is configured to use a second index having a second number of bits as an index to obtain a plurality of residual elements, wherein the second number of bits is less than or greater than the first number of bits.

28. Устройство деквантования аудиоданных по примеру 27, в котором первое число битов составляет от четырёх и семи, и второе число битов составляет от трех и шести.28. The audio data dequantization apparatus of Example 27, wherein the first number of bits is between four and seven, and the second number of bits is between three and six.

29. Устройство деквантования аудиоданных по одному из примеров 16-28,29. Audio data dequantization device according to one of examples 16-28,

- в котором квантованное множество информационных аудиоэлементов содержат, для первого кадра многоканального аудиосигнала, первое множество параметров масштабирования для первого канала многоканального аудиосигнала и второе множество параметров масштабирования для второго канала многоканального аудиосигнала,- wherein the quantized plurality of audio information elements comprise, for a first frame of the multi-channel audio signal, a first set of scaling parameters for a first channel of the multi-channel audio signal and a second set of scaling parameters for a second channel of the multi-channel audio signal,

- при этом устройство деквантования аудиоданных выполнено с возможностью применения модуля (2220) векторного деквантования первой ступени и модуля (2260) векторного деквантования второй ступени к первому множеству и второму множеству первого кадра,- wherein the audio data dequantization device is configured to apply the first stage vector dequantization module (2220) and the second stage vector dequantization module (2260) to the first set and the second set of the first frame,

- при этом квантованное множество информационных аудиоэлементов содержат, для второго кадра многоканального аудиосигнала, третье множество средних параметров масштабирования и четвертое множество боковых параметров масштабирования, и- wherein the quantized set of information audio elements contains, for the second frame of the multi-channel audio signal, a third set of average scaling parameters and a fourth set of side scaling parameters, and

- при этом устройство деквантования аудиоданных выполнено с возможностью применения модуля (2220) векторного деквантования первой ступени и модуля (2260) векторного деквантования второй ступени к третьему множеству средних параметров масштабирования и применения модуля (2260) векторного деквантования второй ступени к четвертому множеству боковых параметров масштабирования и неприменения модуля (2220) векторного деквантования первой ступени к четвертому множеству боковых параметров масштабирования.- wherein the audio data dequantization device is configured to apply the first stage vector dequantization module (2220) and the second stage vector dequantization module (2260) to the third set of average scaling parameters and apply the second stage vector dequantization module (2260) to the fourth set of side scaling parameters and not applying the first stage vector dequantization module (2220) to the fourth set of lateral scaling parameters.

30. Устройство деквантования аудиоданных по примеру 29,30. Audio data dequantization device according to example 29,

- в котором модуль (2240) комбинирования выполнен с возможностью обеспечения ослабления для второго кадра четвертого множества боковых параметров масштабирования перед дополнительным использованием или дополнительной обработкой четвертого множества боковых параметров масштабирования.- wherein the combining module (2240) is configured to provide attenuation for the second frame of the fourth set of side scaling parameters before further use or further processing of the fourth set of side scaling parameters.

31. Способ квантования множества информационных аудиоэлементов, содержащий:31. A method for quantizing a plurality of audio information elements, containing:

- векторное квантование первой ступени для множества информационных аудиоэлементов для определения результата векторного квантования первой ступени, и множества промежуточных квантованных элементов, соответствующих результату векторного квантования первой ступени;- vector quantization of the first stage for a plurality of audio information elements to determine the result of the vector quantization of the first stage, and a plurality of intermediate quantized elements corresponding to the result of the vector quantization of the first stage;

- вычисление множества остаточных элементов из множества промежуточных квантованных элементов и множества информационных аудиоэлементов; и- calculating a plurality of residual elements from a plurality of intermediate quantized elements and a plurality of audio information elements; And

- векторное квантование второй ступени для множества остаточных элементов для получения результата векторного квантования второй ступени, при этом результат векторного квантования первой ступени и результат векторного квантования второй ступени представляют собой квантованное представление множества информационных аудиоэлементов.- second stage vector quantization of a plurality of residual elements to obtain a second stage vector quantization result, wherein the first stage vector quantization result and the second stage vector quantization result are a quantized representation of the plurality of audio information elements.

32. Способ деквантования квантованного множества информационных аудиоэлементов, содержащий:32. A method for dequantizing a quantized set of audio information elements, containing:

- векторное деквантование первой ступени для результата векторного квантования первой ступени, включенного в квантованное множество информационных аудиоэлементов для получения множества промежуточных квантованных информационных аудиоэлементов;- first stage vector dequantization of the first stage vector quantization result included in the quantized plurality of audio information elements to obtain a plurality of intermediate quantized audio information elements;

- векторное деквантование второй ступени для результата векторного квантования второй ступени, включенного в квантованное множество информационных аудиоэлементов для получения множества остаточных элементов; и- vector dequantization of the second stage for the result of vector quantization of the second stage included in the quantized set of information audio elements to obtain a set of residual elements; And

- комбинирование множества промежуточных квантованных информационных элементов и множества остаточных элементов для получения деквантованного множества информационных аудиоэлементов.- combining a plurality of intermediate quantized information elements and a plurality of residual elements to obtain a dequantized plurality of audio information elements.

33. Компьютерная программа для осуществления способа по примеру 31 или способа по примеру 32 при выполнении на компьютере или в процессоре.33. A computer program for implementing the method of example 31 or the method of example 32 when executed on a computer or processor.

Список литературыBibliography

[1] [1] ISO/IEC 11172-3 "Information technology - Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s - Part 3: Audio", 1993 г. ISO/IEC 11172-3 "Information technology - Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s - Part 3: Audio", 1993. [2] [2] ISO/IEC 13818-7 "Information technology - Generic coding of moving pictures and associated audio information - Part 7: Advanced Audio Coding (AAC)", 2003 г.. ISO/IEC 13818-7 "Information technology - Generic coding of moving pictures and associated audio information - Part 7: Advanced Audio Coding (AAC)", 2003. [3] [3] ISO/IEC 23003-3 "Information technology - MPEG audio technologies - Part 3: Unified speech and audio coding".ISO/IEC 23003-3 "Information technology - MPEG audio technologies - Part 3: Unified speech and audio coding". [4] [4] 3GPP TS 26.445 "Codec for Enhanced Voice Services (EVS); Detailed algorithmic description". 3GPP TS 26.445 "Codec for Enhanced Voice Services (EVS); Detailed algorithmic description". [5] [5] G. Markovic, G. Fuchs, N. Rettelbach, C. Helmrich und B. Schubert "LINEAR PREDICTION BASED CODING SCHEME USING SPECTRAL DOMAIN NOISE SHAPNG". Патент US 9,595,262 B2, 14 марта 2017 г..G. Markovic, G. Fuchs, N. Rettelbach, C. Helmrich und B. Schubert "LINEAR PREDICTION BASED CODING SCHEME USING SPECTRAL DOMAIN NOISE SHAPNG". US Patent 9,595,262 B2, March 14, 2017. [6] [6] E. Ravelli, M. Schnell, C. Benndorf, M. Lutzky und M. Dietz "Apparatus and method for encoding and decoding the audio signal using downsampling or interpolation of scale parameters". публикация WO 2019091904 A1, 5-11-2018.E. Ravelli, M. Schnell, C. Benndorf, M. Lutzky und M. Dietz "Apparatus and method for encoding and decoding the audio signal using downsampling or interpolation of scale parameters". publication WO 2019091904 A1, 5-11-2018. [7] [7] A. Biswas "Advances in Perceptual Stereo Audio Coding Using Linear Prediction Techniques", Eindhoven: Technical University of Eindhoven, 2017 г.. A. Biswas "Advances in Perceptual Stereo Audio Coding Using Linear Prediction Techniques", Eindhoven: Technical University of Eindhoven, 2017. [8] [8] G. Markovic, E. Ravelli, M. Schnell, S. Döhla, W. Jaegars, M. Dietz, C. Heimrich, E. Fotopoulou, M. Multrus, S. Bayer, G. Fuchs und J. Herre "APPARATUS AND METHOD FOR MDCT M/S STEREO WITH GLOBAL ILD WITH IMPROVED MID/SIDE DECISION". публикация WO2017EP5117.G. Markovic, E. Ravelli, M. Schnell, S. Döhla, W. Jaegars, M. Dietz, C. Heimrich, E. Fotopoulou, M. Multrus, S. Bayer, G. Fuchs und J. Herre "APPARATUS AND METHOD FOR MDCT M/S STEREO WITH GLOBAL ILD WITH IMPROVED MID/SIDE DECISION". publication WO2017EP5117.

Claims

1. An audio decoder for decoding an encoded audio signal containing multi-channel audio data comprising data for two or more audio channels and information regarding the combined encoded scaling parameters, comprising:

- a scaling parameter decoder (220) for decoding information regarding the combined encoded scaling parameters to obtain a first set of scaling parameters for the first channel of the decoded audio signal and a second set of scaling parameters for the second channel of the decoded audio signal; And

- a signal processor (210, 212, 230) for applying a first set of scaling parameters to a first channel representation extracted from the multi-channel audio data, and for applying a second set of scaling parameters to a second channel representation extracted from the multi-channel audio data, so as to obtain the first channel and second channel of the decoded audio signal,

- wherein the jointly encoded scaling parameters comprise information regarding a first group of jointly encoded scaling parameters and information regarding a second group of jointly encoded scaling parameters, and

- wherein the scaling parameter decoder (220) is configured to combine the jointly encoded scaling parameter of the first group and the jointly encoded scaling parameter of the second group using a first combination rule to obtain the scaling parameter from the first set of scaling parameters, and using a second combination rule different from a first combination rule to obtain a scaling parameter from a second set of scaling parameters.

2. The audio decoder of claim 1, wherein the first group of jointly encoded scaling parameters comprises middle scaling parameters, and the second group of jointly encoded scaling parameters contains side scaling parameters, and wherein the scaling parameter decoder (220) is configured to use addition in the first rule. combining and using subtraction in the second combining rule.

3. The audio decoder of claim 1 or 2, wherein the encoded audio signal is organized into a sequence of frames, wherein the first frame contains multi-channel audio data and information regarding jointly encoded scaling parameters, and wherein the second frame contains separately encoded scaling parameter information, and

- wherein the scaling parameter decoder (220) is configured to detect that the second frame contains information of separately encoded scaling parameters, and calculate the first set of scaling parameters and the second set of scaling parameters.

4. The audio decoder of claim 3, wherein the first frame and the second frame contain auxiliary state information indicating in the first state that the first frame contains information regarding jointly encoded scaling parameters, and in the second state that the second frame contains information about separately encoded scaling parameters , And

- wherein the scaling parameter decoder (220) is configured to read the state auxiliary information of the second frame, detect that the second frame contains separately encoded scaling parameter information based on the read auxiliary state information, or read the state auxiliary information of the first frame and detect that the first the frame contains information regarding the concatenated encoded scaling parameters using the read auxiliary state information.

5. Audio decoder according to one of the preceding paragraphs,

- wherein the signal processor (210, 212, 230) is configured to decode multi-channel audio data to extract a first channel representation and a second channel representation, wherein the first channel representation and the second channel representation are spectral domain representations having spectral sampling values, and

- wherein the signal processor (210, 212, 230) is configured to apply each scaling parameter of the first set and the second set to a corresponding set of spectral sampling values to obtain a spectral representation of the determined shape of the first channel and a spectral representation of the determined shape of the second channel.

6. The audio decoder of claim 5, wherein the signal processor (210, 212, 230) is configured to convert a spectral waveform representation of the first channel and a spectral waveform representation of the second channel into the time domain to obtain a time domain representation of the first channel and a time domain representation of the first channel. time domain of the second channel of the decoded audio signal.

7. The audio decoder as claimed in one of the preceding claims, wherein the first channel representation comprises a first number of frequency bands, wherein the first set of scaling parameters comprises a second number of scaling parameters, the second number being lower than the first number, and

- wherein the signal processor (210, 212, 230) is configured to interpolate the second number of scaling parameters to obtain a number of interpolated scaling parameters greater than or equal to the first number of frequency bands, and wherein the signal processor (210, 212, 230) is configured to scaling the first channel representation using interpolated scaling parameters,

- or:

- wherein the first channel representation comprises a first number of frequency bands, wherein the information regarding the first group of jointly coded scaling parameters comprises a second number of jointly coded scaling parameters, the second number being lower than the first number,

- wherein the scaling parameter decoder (220) is configured to interpolate the second number of jointly coded scaling parameters to obtain a number of interpolated jointly coded scaling parameters greater than or equal to the first number of frequency bands, and

- wherein the scaling parameter decoder (220) is configured to process the interpolated jointly encoded scaling parameters to determine a first set of scaling parameters and a second set of scaling parameters.

8. The audio decoder as claimed in one of the preceding claims, wherein the encoded audio signal is organized into a sequence of frames, wherein information regarding the second group of combined encoded scaling parameters comprises, in a particular frame, zero auxiliary information, wherein the scaling parameter decoder (220) is configured to detect zero auxiliary information for determining that the entire second group of collectively encoded scaling parameters is zero for a particular frame, and

- wherein the scaling parameter decoder (220) is configured to extract scaling parameters from the first set of scaling parameters and from the second set of scaling parameters only from the first group of jointly coded scaling or task parameters when combining the jointly coded scaling parameter of the first group and the jointly coded scaling parameter of the second groups equal to zero values or values less than the noise threshold.

9. Audio decoder according to one of the preceding paragraphs,

- in which the decoder (220) of scaling parameters is configured to:

- dequantizing information regarding the first group of jointly encoded scaling parameters using a first dequantization mode, and

- dequantizing information regarding the second group of jointly encoded scaling parameters using a second dequantization mode, the second dequantization mode being different from the first dequantization mode.

10. The audio decoder of claim 9, wherein the scaling parameter decoder (220) is configured to use a second dequantization mode having an associated lower or higher quantization accuracy than the first dequantization mode.

11. The audio decoder according to claim 9 or 10, in which the decoder (220) of scaling parameters is configured to use as the first dequantization mode a first dequantization stage (2220) and a second dequantization stage (2260) and a combining module (2240), wherein the module ( Combination 2240) takes as input the result of the first dequantization stage (2220) and the result of the second dequantization stage (2260), and

- using as a second dequantization mode a second dequantization stage (2220) of the first dequantization mode, receiving as input information regarding the second group of jointly encoded scaling parameters.

12. The audio decoder of claim 11, wherein the first dequantization stage (2220) is a vector dequantization stage, and wherein the second dequantization stage (2260) is an algebraic vector dequantization stage, or wherein the first dequantization stage (2220) is a fixed rate dequantization, and wherein the second dequantization stage (2260) is a variable rate dequantization stage.

13. The audio decoder of claim 11 or 12, wherein the information regarding the first group of jointly encoded scaling parameters comprises, for a frame of the encoded audio signal, two or more indices, and wherein the information regarding the second group of jointly encoded scaling parameters comprises one index or a fewer number of indices. or an equal number of indices with the first group, and

- wherein the scaling parameter decoder (220) is configured to determine, in the first dequantization stage (2220), for example, for each index of two or more indexes, intermediate jointly encoded scaling parameters of the first group, and the scaling parameter decoder (220) is configured with the possibility of calculating in a second dequantization stage (2260) the remaining jointly encoded scaling parameters of the first group, for example, from one or a lower or equal number of information indexes relative to the first group of jointly encoded scaling parameters, and calculating, by means of a module (2240), combining the first group jointly encoded scaling parameters from the intermediate jointly encoded scaling parameters of the first group and the remaining jointly encoded scaling parameters of the first group.

14. Audio decoder according to one of paragraphs. 11-13, wherein the first dequantization stage (2220) comprises using an index for a first codebook having a first number of entries, or using an index representing a first precision, wherein the second dequantization stage (2260) comprises using an index for a second codebook having a second number of entries, or using an index representing the second precision, and wherein the second number is less than or greater than the first number, or the second precision is less than or greater than the first precision.

15. The audio decoder as claimed in one of the preceding claims, wherein the information regarding the second group of jointly encoded scaling parameters indicates that the entire second group of jointly encoded scaling parameters is zero or has a specific value for a frame of the encoded audio signal, and wherein the scaling parameter decoder (220) is configured capable of being used by combining, using the first rule or the second rule, a jointly encoded scaling parameter equal to zero or equal to a certain value, or representing a synthesized jointly encoded scaling parameter, or

- wherein, for a frame containing information of all zero or defined values, the scaling parameter decoder (220) is configured to determine a second set of scaling parameters using only the first group of jointly encoded scaling parameters without a combining operation.

16. Audio decoder according to one of paragraphs. 9 or 10, in which the scaling parameter decoder (220) is configured to use as the first dequantization mode a first dequantization stage (2220) and a second dequantization stage (2260) and a combining module (2240), wherein the combining module (2240) takes as inputting the result of the first dequantization stage (2220) and the result of the second dequantization stage (2260), and using the first dequantization stage (2220) of the first dequantization mode as the second dequantization mode.

17. Audio encoder for encoding a multi-channel audio signal containing two or more channels, containing:

- a scaling parameter calculating module (140) for calculating a first group of combined encoded scaling parameters and a second group of combined encoded scaling parameters from a first set of scaling parameters for a first channel of a multi-channel audio signal and from a second set of scaling parameters for a second channel of a multi-channel audio signal;

- a signal processor (120) for applying a first set of scaling parameters to a first channel of the multi-channel audio signal and for applying a second set of scaling parameters to a second channel of the multi-channel audio signal and for extracting the multi-channel audio data; And

- a coded signal generating module (1480, 1500) for using multi-channel audio data and information regarding a first group of jointly coded scaling parameters and information regarding a second group of jointly coded scaling parameters to obtain a coded multi-channel audio signal.

18. The audio encoder according to claim 17, wherein the signal processor (120) is configured to, when used:

- encoding the first group of jointly encoded scaling parameters and the second group of jointly encoded scaling parameters to obtain information regarding the first group of jointly encoded scaling parameters and information regarding the second group of jointly encoded scaling parameters,

- locally decoding information regarding the first and second groups of jointly encoded scaling parameters to obtain a locally decoded first set of scaling parameters and a locally decoded second set of scaling parameters, and

- scaling the first channel using a locally decoded first set of scaling parameters and scaling the second channel using a locally decoded second set of scaling parameters,

- or:

- wherein the signal processor (120) is configured to, when used:

- quantizing the first group of jointly encoded scaling parameters and the second group of jointly encoded scaling parameters to obtain a quantized first group of jointly encoded scaling parameters and a quantized second group of jointly encoded scaling parameters,

- locally decoding the quantized first and second groups of jointly encoded scaling parameters to obtain a locally decoded first set of scaling parameters and a locally decoded second set of scaling parameters, and

- scaling the first channel using a locally decoded first set of scaling parameters and scaling the second channel using a locally decoded second set of scaling parameters.

19. Audio encoder according to paragraph 17 or 18,

- wherein the scaling parameter calculation module (140) is configured to combine a scaling parameter from the first set of scaling parameters and a scaling parameter from the second set of scaling parameters using a first combination rule to obtain a jointly encoded scaling parameter of the first group of jointly encoded scaling parameters, and using a second combining rule different from the first combining rule to obtain a jointly encoded scaling parameter of a second group of jointly encoded scaling parameters.

20. The audio encoder of claim 19, wherein the first group of jointly encoded scaling parameters comprises average scaling parameters, and the second group of jointly encoded scaling parameters contains side scaling parameters, and wherein the scaling parameter calculation module (140) is configured to use addition in the first the combination rule and the use of subtraction in the second combination rule.

21. Audio encoder according to one of paragraphs. 17-20, in which the scaling parameter calculation module is configured to process a sequence of frames of a multi-channel audio signal,

- in this case, the module (140) for calculating parameters is configured to:

- calculating first and second groups of jointly encoded scaling parameters for the first frame of the sequence of frames, and

- analyzing the second frame of the sequence of frames to determine a separate encoding mode for the second frame, and

- wherein the encoded signal generating module (1480, 1500) is configured to input into the encoded audio signal auxiliary status information indicating a separate encoding mode for the second frame or a combined encoding mode for the first frame, and information regarding the first set and the second set of separately encoded scaling parameters for the second frame.

22. Audio encoder according to one of paragraphs. 17-21, in which the module (140) for calculating scaling parameters is configured to:

- calculating the first set of scaling parameters for the first channel and the second set of scaling parameters for the second channel,

- downsampling the first and second sets of scaling parameters to obtain a downsampled first set and a downsampled second set; And

- combine the scaling parameter from the downsampled first set and the downsampled second set using different combination rules to obtain a jointly encoded scaling parameter of the first group and a jointly encoded scaling parameter of the second group,

- or:

- in this case, the module (140) for calculating parameters is configured to:

- combining a scaling parameter from the first set and a scaling parameter from a second set using different combination rules to obtain a jointly coded scaling parameter of the first group and a jointly coded scaling parameter of the second group, and

- downsampling the first group of jointly encoded scaling parameters to obtain a downsampled first group of jointly encoded scaling parameters, and downsampling a second group of jointly encoded scaling parameters to obtain a downsampling of the second group of jointly encoded scaling parameters,

- wherein the downsampled first group and the downsampled second group represent information regarding the first group of jointly encoded scaling parameters and information regarding the second group of jointly encoded scaling parameters.

23. Audio encoder according to paragraph 21 or 22,

- in which the module (140) for calculating scaling parameters is configured to calculate the similarity of the first channel and the second channel in the second frame and determine the separate coding mode in the case if the calculated similarity is in the first relation with the threshold value, or determine the combined coding mode in the case, if the calculated similarity is in another second relation with the threshold value.

24. Audio encoder according to claim 23, in which the module (140) for calculating scaling parameters is configured to:

- calculating for the second frame the difference between the scaling parameter of the first set and the scaling parameter of the second set for each frequency band,

- processing each difference for the second frame in such a way that the negative signs are removed to obtain the processed differences of the second frame,

- combining processed differences to obtain a similarity index,

- comparing the similarity index with the threshold value, and

- making a decision in favor of a separate coding mode if the similarity indicator is greater than the threshold value, or making a decision in favor of the combined coding mode if the similarity indicator is below the threshold value.

25. Audio encoder according to one of paragraphs. 17-24, in which the signal processor (120) is configured to:

- quantizing a first group of jointly encoded scaling parameters using a first stage quantization function (141, 143) to obtain one or more first quantization indices as a result of the first stage and obtaining an intermediate first group of jointly encoded scaling parameters,

- calculating (142) a residual first group of jointly encoded scaling parameters from the first group of jointly encoded scaling parameters and an intermediate first group of jointly encoded scaling parameters, and

- quantizing the residual first group of jointly encoded scaling parameters using a second stage quantization function (145) to obtain one or more quantization indices as a result of the second stage.

26. Audio encoder according to one of paragraphs. 17-25,

- wherein the signal processor (120) is configured to quantize the second group of jointly coded scaling parameters using a single-stage quantization function to obtain one or more quantization indices as a single-stage result, or

- wherein the signal processor (120) is configured to quantize the first group of jointly coded scaling parameters using at least a first stage quantization function and a second stage quantization function, and wherein the signal processor (120) is configured to quantize the second group of jointly coded parameters scaling using a single-stage quantization function, wherein the single-stage quantization function is selected from a first-stage quantization function and a second-stage quantization function.

27. Audio encoder according to one of paragraphs. 21-26, in which the module (140) for calculating scaling parameters is configured to:

- quantizing the first set of scaling parameters using the first stage quantization function (141, 143) to obtain one or more first quantization indices as a result of the first stage and obtaining an intermediate first set of scaling parameters,

- calculating (142) a residual first set of scaling parameters from the first set of scaling parameters and an intermediate first set of scaling parameters, and

- quantizing the residual first set of scaling parameters using a second stage quantization function (145) to obtain one or more quantization indices as a result of the second stage,

- or:

- in this case, the module (140) for calculating parameters is configured to:

- quantizing the second set of scaling parameters using the first stage quantization function (141, 143) to obtain one or more first quantization indices as a result of the first stage and obtaining an intermediate second set of scaling parameters,

- calculating (142) a residual second set of scaling parameters from the second set of scaling parameters and an intermediate second set of scaling parameters, and

- quantizing the residual second set of scaling parameters using a second stage quantization function (145) to obtain one or more quantization indices as a result of the second stage.

28. Audio encoder according to paragraph 25 or 27,

- wherein the second stage quantization function (145) uses a gain or weighting value below 1 to increase the residual first set of jointly encoded scaling parameters or the residual first or second set of scaling parameters before performing vector quantization, wherein the vector quantization is performed using the increased residual values, and/or

- wherein, by way of example, the weighting or gain value is used to divide the scaling parameter by the weighting or gain value, the weighting value being preferably between 0.1 and 0.9, or more preferably between 0.2 and 0.6 , or even more preferably between 0.25 and 0.4, and/or

- wherein the same gain value is used for all scaling parameters from the residual first group of jointly coded scaling parameters or the residual first or second set of scaling parameters.

29. Audio encoder according to one of paragraphs. 25-28,

- in which the first stage quantization function (141, 143) contains at least one coding table with a first number of entries corresponding to the first size of one or more quantization indices,

- wherein the second stage quantization function (145) or the single stage quantization function contains at least one coding table with a second number of entries corresponding to the second size of one or more quantization indices, and

- wherein the first number is greater or less than the second number, or the first size is greater or less than the second size, or

wherein the first stage quantization function (141, 143) is a fixed rate quantization function, and wherein the second stage quantization function (145) is a variable rate quantization function.

30. Audio encoder according to one of paragraphs. 15-29, in which the module (140) for calculating scaling parameters is configured to:

- receiving a first MDCT representation for the first channel and a second MDCT representation for the second channel,

- receiving a first MDST representation for the first channel and a second MDST representation for the second channel,

- calculating a first power spectrum for the first channel from the first MDCT representation and the first MDST representation and a second power spectrum for the second channel from the second MDCT representation and the second MDST representation, and

- calculating a first set of scaling parameters for a first channel from the first power spectrum and calculating a second set of scaling parameters for a second channel from a second power spectrum.

31. Audio encoder according to clause 30,

- wherein the signal processor (120) is configured to scale the first MDCT representation using information extracted from the first set of scaling parameters, and scale the second MDCT representation using information extracted from the second set of scaling parameters.

32. Audio encoder according to one of paragraphs. 17-31,

- wherein the signal processor (120) is configured to further process the scaled first channel representation and the scaled second channel representation using combined multi-channel processing to extract a multi-channel processed representation of the multi-channel audio signal, optionally further processing using spectrum band replication processing or intelligent processing filling blank intervals, or bandwidth enhancement processing, and quantizing and encoding the channel representation of the multi-channel audio signal to obtain multi-channel audio data.

33. Audio encoder according to one of paragraphs. 17-31, configured to define, for a frame of a multi-channel audio signal, information regarding the second group of jointly encoded scaling parameters as all-zero or all-determined value information indicating an equal value or zero value for all jointly encoded scaling parameters of the frame, and wherein modulus (1480 , 1500) for generating encoded signals is configured to use all-zero or all-determined value information to obtain an encoded multi-channel audio signal.

34. Audio encoder according to one of paragraphs. 17-31, in which the module (140) for calculating scaling parameters is configured to:

- calculating a first group of jointly coded scaling parameters and a second group of jointly coded scaling parameters for the first frame,

- calculating the first group of jointly encoded scaling parameters for the second frame,

- in this case, in the second frame, the encoded scaling parameters are not calculated or encoded, and

- wherein the encoded signal generation module (1480, 1500) is configured to use a flag as information regarding the second group of jointly encoded scaling parameters indicating that in the second frame, any jointly encoded scaling parameters of the second group are not included in the encoded multi-channel audio signal.

35. A method for decoding an encoded audio signal containing multi-channel audio data comprising data for two or more audio channels and information regarding the combined encoded scaling parameters, comprising the steps of:

- decoding information regarding the combined encoded scaling parameters to obtain a first set of scaling parameters for the first channel of the decoded audio signal and a second set of scaling parameters for the second channel of the decoded audio signal; And

- applying a first set of scaling parameters to a first channel representation extracted from the multi-channel audio data, and applying a second set of scaling parameters to a second channel representation extracted from the multi-channel audio data, so as to obtain a first channel and a second channel of the decoded audio signal,

wherein the decoding comprises combining a jointly encoded scaling parameter of the first group and a jointly encoded scaling parameter of the second group using a first combination rule to obtain a scaling parameter from the first set of scaling parameters, and using a second combination rule different from the first combination rule , to obtain the scaling parameter from the second set of scaling parameters.

36. A method for encoding a multi-channel audio signal containing two or more channels, comprising the steps of:

- calculating a first group of jointly coded scaling parameters and a second group of jointly coded scaling parameters from the first set of scaling parameters for the first channel of the multi-channel audio signal and from the second set of scaling parameters for the second channel of the multi-channel audio signal;

- applying a first set of scaling parameters to the first channel of the multi-channel audio signal and applying a second set of scaling parameters to the second channel of the multi-channel audio signal and extracting the multi-channel audio data; And

- using multi-channel audio data and information regarding a first group of jointly coded scaling parameters and information regarding a second group of jointly coded scaling parameters to obtain a coded multi-channel audio signal.

37. A storage medium on which a computer program for implementing the method of claim 35 when executed on a computer or processor is stored.

38. A storage medium on which a computer program for implementing the method of claim 36 when executed on a computer or processor is stored.