Квантование и кодирование параметров

Параметры IID, IPD, OPD и IC квантуются в соответствии с критериями восприятия. Цель квантования в том, чтобы выявить неслышимые ошибки квантования. Для IID это ограничение требует нелинейного квантователя либо нелинейно расположенных значений IID, т.к. чувствительность к изменению IID зависит от IID исходного сигнала. Вектор IIDs содержитвозможные дискретные значения IID, которые допустимы для квантователя. Каждый элемент этого вектора представляет собой один уровень квантования параметра IID и обозначается IIDq[i] (i = [0, . . . , 30]):

Индекс субполосы b, IDXIID[b] тогда равен:

Для параметра IPD вектор IPDs представляет собой допустимые значения квантованного IPD:

This repertoire is in line with the finding that the human sensitivity to changes in timing differences at low frequencies can be described by a constant phase difference sensitivity. The IPD index for subband b, IDXIPD[b], is given by

where mod(·) means the modulo operator, _·_ the floor function, and ΛIPDsthe cardinality of the set of possible quantized IPD values (i.e., the number of elements in IPDs). The OPD is quantized using the same quantizer, resulting in IDXOPD[b] according to

Finally, the repertoire for IC, represented in the vector ICs, is given by (see also (21))

This repertoire is based on just-noticeable differences in correlation reported by [69]. The coherence index IDXIC[b] for subband b is determined by

The IPD and OPD indices are not transmitted for subbands b > 17 (approximately 2 kHz), given the fact that the human auditory system is insensitive to fine-structure phase differences at high frequencies. ITDs present in the high-frequency envelopes are supposed to be represented by the time-varying nature of IID parameters (hence discarding ITDs presented in envelopes that fluctuate faster than the parameter update rate). Thus, for each frame, 34 indices for the IID and IC have to be transmitted, and 17 indices for the IPD and OPD. All parameters are transmitted differentially across time. In principle, differential coding of indices Λ (λ = {0, . . . ,Λ − 1}) requires 2Λ − 1 codewords λd = {−Λ + 1, . . . , 0, . . . ,Λ − 1}. Assuming that each differential index λd has a probability of occurrence p(λd), the entropy H(p) (in bits/symbol) of this distribution is given by

Given the fact that the cardinality of each parameter Λ is known by the decoder, each differential index λd can also be modulo-encoded by λmod, which is given by

Этот набор параметров стоит в одном ряду с открытием, что человеческую чувствительность к изменениям временной разности на низких частотах можно описать чувствительностью к постоянной разности фаз. Индекс IPD для субполосы b - IDXIPD[b] определяется следующим образом:

Где mod(·) означает операцию модуля, -округление в сторону меньшего целог, а ΛIPDs –кардинальное числопоследовательности возможных значений квантованного IPD (соответствующее количеству элементов вектора IPDs) Для OPD используется тот же квантователь, выдающий в результате IDXOPD[b] согласно:

В конечном счете набор значений IC, представленный вектором ICs, выглядит так: (см. также 21):

Эта последовательность основана только на заметных разностях корреляции, описанных в [69]. Коэффициент когерентности IDXIC[b] для субполосы b определяется:

Индексы IPD и OPD не передаются для субполос b > 17 (приблизительно 2кГц), т.к. слуховой аппарат человека не чувствителен к незначительному изменению разности фаз в области высоких частот. ITDs существуют в огибающих на высоких частотах и представлены изменяющимися во времени параметрами IID (значит, не учитываются ITDs, существующие в огибающих, которые меняются быстрее, чем скорость обновления параметров ). Таким образом, для каждого фрейма нужно передавать 34 индекса IID и IC и 17 индексов IPD и OPD. Все параметры передаются раздельно по времени. В принципе раздельное кодирование индексов Λ (λ = {0, . . . ,Λ − 1}) требует 2Λ − 1 кодовых слов λd = {−Λ + 1, . . . , 0, . . . ,Λ − 1}. При условии, что каждый конкретный индекс λd имеет вероятность появления p(λd), энтропия H(p) (бит/символ) данного распределения вычисляется:



Учитывая тот факт, что кардинальное число каждого параметра Λ декодеру известно, модуль каждого отдельного индекса λd также может быть закодирован с помощью λmod, где

The decoder can simply retain the transmitted index λ recursively following

with q the frame number of the current frame. The entropy for λmod, H(pmod), is given by

Given that

it follows that the difference in entropy between differential and modulo-differential coding, H(p) − H(pmod), equals For nonnegative probabilities p(·), it follows that

In other words, modulo-differential coding results in an entropy which is equal to or smaller than the entropy obtained for non modulo-differential coding. However, the bit-rate gains for modulo time-differential coding compared to time differential coding are relatively small: about 15% for the IPD and OPD parameters, and virtually no gain for the IID and IC parameters. The entropy per symbol, using modulo differential coding, and the resulting contribution to the overall bit rate are given in Table 1. These numbers were obtained by analysis of 80 different audio recordings representing a large variety of material.

Table 1: Entropy per parameter symbol, number of symbols per second, and bit rate for spatial parameters.

The total estimated parameter bit rate for the configuration as described above, excluding bit-stream overhead, and averaged across a large amount of representative stereo material amounts to 7.7 kbps. If further parameter bit-rate reduction is required, the following changes can be made.

Декодер может легко удерживать в памяти передаваемый индекс λ:

где q – номер текущего фрейма. Энтропия H(pmod) в зависимости от λmod выражается следующим образом:

Из того, что

следует, что разность энтропии между дифференциальным кодированием и дифференциальным кодированием модуля H(p) − H(pmod) равна

Для неотрицательных вероятностей p(·) следует, что

Другими словами, дифференциальное кодирование модуля приводит к энтропии, меньшей, чем при не модульном дифференциальном кодировании. Однако выигрыш в скорости цифрового потока для дифференциального кодирования модуля по сравнению временным дифференциальным кодированием относительно мал: около 15% для параметров IPD и OPD и практически никакого для параметров IID и IC. Величина энтропии на символ при дифференциальном кодировании модуля и итоговый вклад в конечную скорость цифрового потока представлены в Таблице 1. Эти числа были получены путем анализа 80 различных систем звукозаписи, представляющих большое количество материала.

Таблица 1. Энтропия на символ параметра, количество символов в секунду и скорость пространственных параметров.

После общей оценки параметров значение скорости для конфигурации, описанной выше, исключая поток добавочных битов, усредняется по большому количеству представленного стерео материала до порядка 7.7 кбит/c. Если требуется дальнейшее снижение скорости параметров, можно внести следующие изменения.

(i) Reduction of the number of frequency bands (e.g., using 20 instead of 34). The parameter bit rate increases approximately linearly with the number of bands. This results in a bit rate of approximately 4.5 kbps for the 20-band case, assuming an update rate of 23 milliseconds and including transmission of IPD and OPD parameters. Informal listening experiments showed that lowering the number of frequency bands below 10 results in severe degradation of the perceived spatial quality.

(ii) No transmission of IPD and OPD parameters. As described above, the coherence is a measure of the difference between the input signals which cannot be accounted for by (subband) phase and level differences. A lower bit rate is obtained if the applied signalmodel does not incorporate phase differences. In that case, the normalized cross-correlation is the relevant measure of differences between the input signals that cannot be accounted for by level differences. In other words, phase or time differences between the input signals are modeled as (additional) changes in the coherence. The estimated coherence value (which is in fact the normalized cross-correlation) is then derived from the cross-spectrum following

The associated bit-rate reduction amounts to approximately 27% compared to parameter sets which do include the IPD and OPD values.

(iii) Increasing the quantization errors of the parameters. The bit-rate reduction is only marginal, given the fact that the distribution of time-differential parameters is very peaky.

(iv) Decreasing the parameter update rate. The bit rate scales approximately linear with the update rate. In summary, the parameter bit rate can be scaled between approximately 8 kbps for maximum quality (using 34 analysis bands, an update rate of 23 milliseconds, and transmitting all relevant parameters) to about 1.5 kbps (using 20 analysis frequency bands, an update rate of 46 milliseconds, and no transmission of IPD and OPD parameters).


6896460260144743.html
6896492804611725.html
    PR.RU™