JP2002116799A - Audio signal encoding device - Google Patents
Audio signal encoding deviceInfo
- Publication number
- JP2002116799A JP2002116799A JP2000308274A JP2000308274A JP2002116799A JP 2002116799 A JP2002116799 A JP 2002116799A JP 2000308274 A JP2000308274 A JP 2000308274A JP 2000308274 A JP2000308274 A JP 2000308274A JP 2002116799 A JP2002116799 A JP 2002116799A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- quantization
- fade
- audio
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 52
- 238000013139 quantization Methods 0.000 claims abstract description 76
- 238000001228 spectrum Methods 0.000 claims abstract description 25
- 238000006243 chemical reaction Methods 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims description 22
- 238000005562 fading Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 11
- 230000002159 abnormal effect Effects 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- BSYNRYMUTXBXSQ-UHFFFAOYSA-N Aspirin Chemical compound CC(=O)OC1=CC=CC=C1C(O)=O BSYNRYMUTXBXSQ-UHFFFAOYSA-N 0.000 description 1
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、入力したオーディ
オ信号を周波数領域に変換した後に符号化を行なうオー
ディオ信号符号化装置に関するものである。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an audio signal encoding apparatus for performing encoding after converting an input audio signal into a frequency domain.
【0002】[0002]
【従来の技術】従来より、高能率符号化によって入力し
たオーディオ信号の符号化を行うオーディオ信号符号化
方法には、例えば適応スペクトル聴感制御エントロピー
符号化法(ASPEC:Adaptive Spectral Perceptual
Entropy Coding )や、MPEG( Moving Picture Ex
pert Group)1オーディオ・レイヤ3とか、MPEG2
オーディオAAC( Advanced Audio Coding)などがあ
る。2. Description of the Related Art Conventionally, an audio signal encoding method for encoding an input audio signal by high efficiency encoding includes, for example, an adaptive spectral perceptual encoding method (ASPEC: Adaptive Spectral Perceptual).
Entropy Coding) and MPEG (Moving Picture Ex)
pert Group) 1 audio layer 3 or MPEG2
Audio AAC (Advanced Audio Coding) and the like.
【0003】上記したオーディオ信号符号化方法を適用
した従来のオーディオ信号符号化装置について、図6及
び図7を併用して説明する。A conventional audio signal encoding apparatus to which the above-described audio signal encoding method is applied will be described with reference to FIGS. 6 and 7.
【0004】図6は従来のオーディオ信号符号化装置を
示したブロック図、図7は従来のオーディオ信号符号化
装置において、量子化時の2重ループの動作を示したフ
ロー図、図8はオーディオ・スペクトル信号に対するバ
ンドsfbとの対応を示した模式図である。FIG. 6 is a block diagram showing a conventional audio signal encoding apparatus, FIG. 7 is a flow chart showing a double loop operation at the time of quantization in the conventional audio signal encoding apparatus, and FIG. It is the schematic diagram which showed the correspondence with the band sfb with respect to a spectrum signal.
【0005】図6に示した従来のオーディオ信号符号化
装置10Bは、時間周波数変換部11と、聴覚モデル部
12と、量子化符号化部13と、ビットストリーム化部
14とで構成されている。The conventional audio signal encoding device 10B shown in FIG. 6 comprises a time-frequency converter 11, an auditory model 12, a quantization encoder 13, and a bit stream generator 14. .
【0006】まず、時間軸上のディジタル・オーディオ
信号(以下、オーディオ・PCM信号と記す)は、略一
定の処理期間となるフレーム単位で時間周波数変換部1
1と、聴覚モデル部12とに並列に入力されている。First, a digital audio signal (hereinafter referred to as an audio PCM signal) on a time axis is converted into a time-frequency signal by a time-frequency converter 1 in a frame unit having a substantially constant processing period.
1 and the auditory model unit 12 are input in parallel.
【0007】上記した時間周波数変換部11では、入力
されたオーディオ・PCM( Pulse-Code Modulation)
信号に対して、FFT( Fast Fourier Transform )処
理やMDCT( Modified Discrete Cosine Transform
)処理等を用いて、時間軸から周波数軸への変換が行
なわれ、変換されたオーディオ・スペクトル信号が量子
化符号化部13に送られる。In the above-mentioned time-frequency converter 11, the input audio / PCM (Pulse-Code Modulation) is input.
FFT (Fast Fourier Transform) processing and MDCT (Modified Discrete Cosine Transform)
) The conversion from the time axis to the frequency axis is performed using processing or the like, and the converted audio spectrum signal is sent to the quantization encoding unit 13.
【0008】一方、上記した聴覚モデル部12では、人
間の聴覚心理に基づいてマスキングレベルの計算により
求めた聴覚パラメータとなる信号対マスキング率SMR
( Signal-to-Mask-ratio )が量子化符号化部13に送
られる。On the other hand, in the above-mentioned auditory model unit 12, a signal-to-masking ratio SMR, which is an auditory parameter obtained by calculating a masking level based on human psychological psychology, is used.
(Signal-to-Mask-ratio) is sent to the quantization encoding unit 13.
【0009】次に、上記した量子化符号化部13では、
時間周波数変換部11から出力されたオーディオ・スペ
クトル信号に対してバンド(帯域)ごとに量子化を施
す。ここでオーディオ・スペクトル信号に対して量子化
を行う際、非線形量子化とハフマン符号化のために後述
するようなイタレーションループ(繰り返しループ)に
より2重ループを形成して、量子化時の符号量と、量子
化歪みとを制御している。Next, in the above-mentioned quantization encoding unit 13,
The audio spectrum signal output from the time-frequency converter 11 is quantized for each band. Here, when performing quantization on the audio spectrum signal, a double loop is formed by an iteration loop (repetition loop) described later for nonlinear quantization and Huffman coding, and the code at the time of quantization is formed. The amount and the quantization distortion are controlled.
【0010】この際、イタレーションループによる2重
ループではアウターループの中にインナーループを含ま
せており、インナーループで時間周波数変換部11から
のオーディオ・スペクトル信号に対して使用ビット数が
所定のビット数の範囲内に収まるように制御を行いなが
ら量子化信号を得ている。この後、アウターループで量
子化信号の量子化歪みを算出して、量子化歪みが聴覚モ
デル部12から出力された信号対マスキング率SMRに
基づいて許容ノイズレベル以下になるように制御して、
量子化歪みが許容ノイズレベル以下になった時に量子化
信号をビットストリーム化部14に送っている。At this time, in the double loop of the iteration loop, the inner loop is included in the outer loop, and the number of bits used for the audio / spectrum signal from the time-frequency converter 11 is predetermined in the inner loop. A quantized signal is obtained while performing control so as to be within the range of the number of bits. Thereafter, the quantization distortion of the quantized signal is calculated in the outer loop, and the quantization distortion is controlled to be equal to or less than the allowable noise level based on the signal-to-masking ratio SMR output from the auditory model unit 12,
When the quantization distortion falls below the allowable noise level, the quantization signal is sent to the bit stream generator 14.
【0011】より具体的には、図7(a)に示した如
く、ステップ1でイタレーションループITRを開始す
ると、ステップ2でアウターループOR中のインナール
ープIRに直ちに移行して、図7(b)に示したように
インナーループIRを開始する。More specifically, as shown in FIG. 7 (a), when the iteration loop ITR is started in step 1, the process immediately shifts to the inner loop IR in the outer loop OR in step 2, and FIG. The inner loop IR is started as shown in b).
【0012】そして、インナーループIRを開始する
と、ステップ2aで時間周波数変換部11からのオーデ
ィオ・スペクトル信号に対してバンドごとに量子化を施
して量子化信号を得る。次に、ステップ2bで量子化信
号に対してハフマン符号化により使用ビット数を算出す
る。次に、ステップ2cで量子化信号の使用ビット数が
所定ビット数に収まっているか否かの判断を行う。そし
て、ステップ2cで、量子化信号の使用ビット数が所定
ビット数に収まっていない(NO)場合には、ステップ
2dでglobal_gainを増加する方向に調整す
ることで、量子化信号中の全てのバンドに対してレベル
を一様に可変し、この後、上記したステップ2aまで戻
って再び上記したステップ2a〜ステップ2cを行い、
ステップ2cで量子化信号の使用ビット数が所定ビット
数に収まるまで繰り返す。一方、ステップ2cで、量子
化信号の使用ビット数が所定ビット数に収まっている
(YES)場合には、global_gainが確定さ
れる。この後、ステップ2eでインナーループIRを終
了して、アウターループORに戻る。When the inner loop IR is started, the audio spectrum signal from the time-frequency converter 11 is quantized for each band in step 2a to obtain a quantized signal. Next, in step 2b, the number of bits used is calculated for the quantized signal by Huffman coding. Next, in step 2c, it is determined whether or not the number of bits used of the quantized signal is within a predetermined number of bits. If the number of bits used of the quantized signal does not fall within the predetermined number of bits (NO) in step 2c, global_gain is adjusted to increase in step 2d, so that all the bands in the quantized signal are adjusted. , The level is uniformly changed, and thereafter, the process returns to the above-described step 2a, and performs the above-described steps 2a to 2c again.
In step 2c, the process is repeated until the number of bits used of the quantized signal falls within the predetermined number of bits. On the other hand, in step 2c, if the number of bits used of the quantized signal is within the predetermined number of bits (YES), global_gain is determined. Thereafter, in step 2e, the inner loop IR ends, and the process returns to the outer loop OR.
【0013】尚、ステップ2c中の所定ビット数とは、
予め設定されたビットレートより求められる1オーディ
オフレームにおいて使用可能なビット数を意味する。Note that the predetermined number of bits in step 2c is
It means the number of bits that can be used in one audio frame obtained from a preset bit rate.
【0014】この際、インナーループIR中のステップ
2aで時間周波数変換部11からのオーディオ・スペク
トル信号に対してバンドごとに量子化を施す場合には、
下記する[数1]に示した量子化式に準拠して量子化が
行われている。At this time, when quantizing the audio spectrum signal from the time-frequency converter 11 for each band in step 2a in the inner loop IR,
Quantization is performed according to a quantization equation shown in [Equation 1] below.
【0015】[0015]
【数1】 上記した[数1]中において、quant(k)はフレ
ーム内の量子化信号のインデックスkに対する量子化値
を示している。また、[数1]中の分母側に示したgl
obal_gainは、フレーム内の全てのオーディオ
・スペクトル信号に対してレベルを可変するための第1
の変数であり、この第1の変数は整数値である。また、
[数1]中の分子側に示した|mdct_line
(k)|は、オーディオ・スペクトル信号のインデック
スkに対する絶対レベルを示している。更に、[数1]
中の分子側に示したscalefactor(sfb)
は、バンドsfb単位でオーディオ・スペクトル信号の
レベルを可変することで、量子化歪みを制御するための
第2の変数である。この際、オーディオ・スペクトル信
号に対するバンドsfbとの対応を模式的に示すと図8
の如くになっている。(Equation 1) In the above [Equation 1], quant (k) indicates a quantization value for an index k of a quantization signal in a frame. Also, gl shown on the denominator side in [Equation 1]
obal_gain is the first for varying the level for all audio spectrum signals in the frame.
, And the first variable is an integer value. Also,
| Mdct_line shown on the molecule side in [Equation 1]
(K) | indicates the absolute level of the audio spectrum signal with respect to the index k. Furthermore, [Equation 1]
Scalefactor (sfb) shown on the molecular side in
Is a second variable for controlling the quantization distortion by varying the level of the audio spectrum signal in band sfb units. At this time, the correspondence between the audio spectrum signal and the band sfb is schematically shown in FIG.
It is like.
【0016】次に、ステップ2によるインナーループI
Rが終了したら、図7(a)に示したアウターループO
R中のステップ3に移行し、ステップ3でインナールー
プIRで求めた量子化結果を基に逆量子化を行ない、バ
ンド単位で量子化歪みを算出する。ここで、逆量子化を
行う際には、下記する[数2]に示した逆量子化式に準
拠して逆量子化が行われている。Next, the inner loop I in step 2
When R is completed, the outer loop O shown in FIG.
The process proceeds to step 3 in R, and in step 3, inverse quantization is performed based on the quantization result obtained by the inner loop IR, and quantization distortion is calculated for each band. Here, when performing the inverse quantization, the inverse quantization is performed based on the inverse quantization formula shown in [Equation 2] below.
【0017】[0017]
【数2】 次に、ステップ4では、バンド単位で算出された量子化
歪みが、聴覚モデル部12の信号対マスキング率SMR
から求めた許容歪み内に収まっているか否かを判断し、
量子化歪みが許容歪み内に収まっていない(NO)場合
には、ステップ5でそのバンドのscalefacto
r(sfb)を増加する方向に調整する。この場合に
は、量子化歪みが許容歪み内に収まっていないバンドが
1バンド以上存在するので、上記したステップ2まで戻
って再び上記したステップ2〜ステップ4を行い、ステ
ップ4で量子化歪みが許容歪み内に収まるまで繰り返
す。一方、ステップ4で量子化歪みが許容歪み内に収ま
っている(YES)場合には、scalefactor
(sfb)が確定される。この後、ステップ6で量子
化信号と、第1の変数であるglobal_gain
と、第2の変数であるscalefactor(sf
b)とをビットストリーム化部14に出力して、ステッ
プ7でイタレーションループITRが終了する。(Equation 2) Next, in step 4, the quantization distortion calculated for each band is used as the signal-to-masking ratio SMR of the auditory model unit 12.
Judge whether it is within the allowable distortion obtained from
If the quantization distortion is not within the allowable distortion (NO), the scalefactor of that band is determined in step 5.
r (sfb) is adjusted to increase. In this case, since there is one or more bands in which the quantization distortion is not within the allowable distortion, the process returns to the above-described step 2 and performs the above-described steps 2 to 4 again. Repeat until it falls within the allowable distortion. On the other hand, if the quantization distortion falls within the allowable distortion in step 4 (YES), the scalefactor
(Sfb) is determined. Thereafter, in step 6, the quantized signal and the first variable global_gain
And the second variable, scalefactor (sf
b) is output to the bit stream generator 14, and the iteration loop ITR ends in step S7.
【0018】図6に戻り、ビットストリーム化部14で
は、量子化符号化部13から出力された量子化信号と、
global_gainと、scalefactor
(sfb)とを多重化して、ビットストリームを出力す
ることで、オーディオ信号の符号化が終了する。Returning to FIG. 6, in the bit stream generator 14, the quantized signal output from the quantization encoder 13 and
global_gain and scalefactor
(Sfb) is multiplexed and a bit stream is output, thereby completing the encoding of the audio signal.
【0019】[0019]
【発明が解決しようとする課題】ところで、上記した従
来のオーディオ信号符号化装置を適用して、オーディオ
・PCM信号(コンテンツ)を符号化する場合、番組の
切り替え、曲の切り替え時にコンテンツ側でフェードが
かけられた状態で符号化を行うことが望ましいが、コン
テンツ側のフェード処理がかけられていない場合(接続
部位が不連続の場合)に、符号化・復号化した際にレベ
ル変動が起こることになり、クリック音などの異音を発
生するので問題となる。By the way, when encoding the audio / PCM signal (content) by applying the above-mentioned conventional audio signal encoding apparatus, when the program is switched or the music is switched, the content side fades. It is desirable to perform encoding in the state where is applied, but when the fade processing on the content side is not applied (when the connection part is discontinuous), level fluctuation occurs when encoding / decoding This causes a problem such as generation of an abnormal sound such as a click sound.
【0020】[0020]
【課題を解決するための手段】本発明は上記課題に鑑み
てなされたものであり、オーディオ信号を符号化するオ
ーディオ信号符号化装置において、入力した前記オーデ
ィオ信号を時間軸から周波数軸に変換してオーディオ・
スペクトル信号を出力する時間周波数変換部と、入力し
た前記オーディオ信号から人間の聴覚特性に基づいた聴
覚パラメータを算出して出力する聴覚モデル部と、前記
オーディオ信号をフェード処理するために、入力したフ
ェード用パラメータを確認して該フェード用パラメータ
を出力するフェード用パラメータ入力部と、前記聴覚モ
デル部から出力された前記聴覚パラメータを用いて前記
時間周波数変換部から出力された前記オーディオ・スペ
クトル信号に対して量子化を行って量子化信号を出力す
る量子化符号化部と、前記量子化符号化部から出力され
た前記量子化信号をビットストリームに変換して出力す
るビットストリーム化部とを備えており、前記量子化符
号化部は、前記量子化信号の符号量を制御するための第
1の変数と、前記量子化信号の量子化歪みを制御するた
めの第2の変数とを用いて前記オーディオ・スペクトル
信号を量子化した後、前記フェード用パラメータにより
前記第1の変数を変更することを特徴とするオーディオ
信号符号化装置を提供するものである。SUMMARY OF THE INVENTION The present invention has been made in view of the above problems, and an audio signal encoding apparatus for encoding an audio signal converts the input audio signal from a time axis to a frequency axis. Audio
A time-frequency conversion unit that outputs a spectrum signal, an auditory model unit that calculates and outputs auditory parameters based on human auditory characteristics from the input audio signal, and an input fade that is used to perform a fade process on the audio signal. A fade parameter input unit for checking the parameters for the fade and outputting the parameters for the fade, and the audio spectrum signal output from the time-frequency conversion unit using the auditory parameters output from the auditory model unit. A quantization encoding unit that performs quantization and outputs a quantized signal, and a bit stream conversion unit that converts the quantized signal output from the quantization encoding unit into a bit stream and outputs the bit stream. The quantization coding unit includes a first variable for controlling a code amount of the quantization signal; And a second variable for controlling a quantization distortion of the child signal. After quantizing the audio spectrum signal using the second variable, the first variable is changed by the fade parameter. A signal encoding device is provided.
【0021】[0021]
【発明の実施の形態】以下に本発明に係るオーディオ信
号符号化装置の一実施例を図1乃至図5を参照して詳細
に説明する。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of an audio signal encoding apparatus according to the present invention will be described below in detail with reference to FIGS.
【0022】図1は本発明に係るオーディオ信号符号化
装置を示したブロック図、図2は本発明に係るオーディ
オ信号符号化装置において、量子化時の2重ループの動
作を示したフロー図、図3は図2に示したフェード処理
の動作を示したフロー図、図4は本発明に係るオーディ
オ信号符号化装置から出力されたビットストリームを復
号化するためのオーディオ信号復号化装置を示したブロ
ック図、図5(a)はフェード用パラメータを使用しな
い場合の復号化出力例を示した波形図であり、(b)は
フェード用パラメータを使用した場合の復号化出力例を
示した波形図である。FIG. 1 is a block diagram showing an audio signal encoding apparatus according to the present invention. FIG. 2 is a flowchart showing the operation of a double loop during quantization in the audio signal encoding apparatus according to the present invention. FIG. 3 is a flowchart showing the operation of the fade processing shown in FIG. 2, and FIG. 4 shows an audio signal decoding apparatus for decoding a bit stream output from the audio signal encoding apparatus according to the present invention. FIG. 5A is a waveform diagram illustrating a decoded output example when a fade parameter is not used, and FIG. 5B is a waveform diagram illustrating a decoded output example when a fade parameter is used. It is.
【0023】尚、説明の便宜上、先に従来例で示した構
成部材と同一構成部材に対しては同一の符号を付して適
宜説明し、且つ、従来例と異なる構成部材に新たな符号
を付すと共に、この実施例では従来例と異なる点を中心
に説明する。For convenience of explanation, the same reference numerals are given to the same constituent members as those shown in the conventional example, and the description is appropriately given, and new reference numerals are given to constituent members different from the conventional example. In addition, this embodiment will be described focusing on points different from the conventional example.
【0024】本発明に係るオーディオ信号符号化装置で
は、とくに、クリック音などの異音を発生することがな
いようにオーディオ信号を符号化する際に、フェード処
理を行うことを特徴とするものである。The audio signal encoding apparatus according to the present invention is characterized by performing a fade process when encoding an audio signal so as not to generate an abnormal sound such as a click sound. is there.
【0025】図1に示した本発明に係るオーディオ信号
符号化装置10Aは、時間周波数変換部11と、聴覚モ
デル部12と、量子化符号化部13と、ビットストリー
ム化部14と、新たに追加したフェード用パラメータ入
力部15とで構成されている。The audio signal encoding apparatus 10A according to the present invention shown in FIG. 1 includes a time-frequency conversion unit 11, an auditory model unit 12, a quantization encoding unit 13, a bit stream conversion unit 14, It comprises an added fade parameter input unit 15.
【0026】入力されたオーディオ・PCM信号は、略
一定の処理期間となるフレーム単位で時間周波数変換部
11と、聴覚モデル部12とに送られて、時間周波数変
換部11で時間軸から周波数軸への変換が行なわれ、変
換されたオーディオ・スペクトル信号が量子化符号化部
13に送られる。一方、聴覚モデル部12で人間の聴覚
心理に基づいてマスキングレベルの計算により求めた聴
覚パラメータとなる信号対マスキング率SMRが量子化
符号化部13に送られる。The input audio / PCM signal is sent to the time-frequency conversion unit 11 and the auditory model unit 12 on a frame-by-frame basis with a substantially constant processing period. Then, the converted audio / spectrum signal is sent to the quantization encoding unit 13. On the other hand, the signal-to-masking ratio SMR, which is an auditory parameter obtained by calculating the masking level based on the auditory psychology of the human in the auditory model unit 12, is sent to the quantization encoding unit 13.
【0027】次に、本発明の要部となるフェード用パラ
メータ入力部15は、入力したオーディオ・PCMをフ
レーム単位でフェード処理するために、外部からここに
入力されたフェード用パラメータを確認して、フェード
用パラメータfpを量子化符号化部13に供給する。Next, a fade parameter input unit 15 which is a main part of the present invention checks a fade parameter input from outside to input the audio / PCM in order to perform a fade process on a frame basis. , And the fade parameter fp to the quantization encoding unit 13.
【0028】ここで、量子化符号化部13に供給するフ
ェード用パラメータfpは、フレームに対して設定され
る0又は自然数(1,2,……n)である。そして、オ
ーディオ・PCM信号に対してフェード処理対象のフレ
ーム範囲が設定されると、フェード用パラメータfpが
各フレームごとにフェード処理すべきフレーム状況に応
じて0又は自然数による適宜な数値に設定されて、量子
化符号化部13でフェード時の振幅レベルを変更できる
ようになっている。Here, the fade parameter fp supplied to the quantization encoder 13 is 0 or a natural number (1, 2,..., N) set for the frame. Then, when the frame range to be subjected to the fade processing is set for the audio / PCM signal, the fade parameter fp is set to 0 or an appropriate numerical value by a natural number according to the frame state in which the fade processing is to be performed for each frame. The amplitude level at the time of fading can be changed by the quantization encoding unit 13.
【0029】次に、量子化符号化部13では、時間周波
数変換部11から出力されたオーディオ・スペクトル信
号に対してバンドごとに量子化を施す際に、従来例で説
明したと同様にイタレーションループITRを終了し、
このイタレーションループITRを終了した段階の量子
化信号に対して、フェード用パラメータ入力部15から
送られたフェード用パラメータfpに基づいてフェード
処理を行っている。Next, in the quantization encoding unit 13, when quantizing the audio spectrum signal output from the time-frequency conversion unit 11 for each band, the quantization is performed in the same manner as described in the conventional example. End the loop ITR,
A fade process is performed on the quantized signal at the stage where the iteration loop ITR has been completed, based on the fade parameter fp sent from the fade parameter input unit 15.
【0030】即ち、上記した量子化符号化部13では、
図2(a),(b)に示した如く、先に従来例で説明し
たと同様のイタレーションループITRによる2重ルー
プが行われており、ここではイタレーションループIT
R中のインナーループIR及びアウターループORの結
果だけを述べると、インナーループIRによる各ステッ
プが終了すると、量子化信号の使用ビット数が所定ビッ
ト数に収まっている状態になって、量子化信号中の全て
のバンドに対してレベルを可変するための第1の変数で
あるglobal_gainが確定される。That is, in the above-mentioned quantization encoding unit 13,
As shown in FIGS. 2A and 2B, a double loop by the same iteration loop ITR as described in the conventional example is performed.
If only the results of the inner loop IR and the outer loop OR in R are described, when each step by the inner loop IR is completed, the number of bits used of the quantized signal is within a predetermined number of bits, and the quantized signal is The first variable global_gain for changing the level for all the bands in the band is determined.
【0031】この後、アウターループORによる各ステ
ップが終了すると、バンド単位で量子化歪みが許容ノイ
ズレベル以下の状態になって、量子化歪みを制御するた
めの第2の変数であるscalefactor(sf
b)も確定される。After that, when each step by the outer loop OR is completed, the quantization distortion becomes equal to or less than the allowable noise level in band units, and scalefactor (sf) which is a second variable for controlling the quantization distortion is used.
b) is also determined.
【0032】そして、アウターループOR中のステップ
6’では、量子化信号と、第1の変数であるglo
bal_gainと、第2の変数であるscalef
actor(sfb)とが、先に従来例で説明したよう
なビットストリーム化部14に出力されることなく、量
子化符号化部13内で下記するフェード処理側に出力さ
れる。Then, in step 6 'in the outer loop OR, the quantized signal and glo which is the first variable
bal_gain and the second variable, scalef
The actor (sfb) is output to the following fade processing side in the quantization encoding unit 13 without being output to the bit stream conversion unit 14 as described in the conventional example.
【0033】この後、ステップ7でイタレーションルー
プITRが終了すると、次に、ステップ8のフェード処
理Fに入る。このフェード処理Fは、図3に示した如
く、ステップ8aで、イタレーションループITRが終
了した時に確定されたglobal_gainに対して
フェード用パラメータfpを考慮して、ここに供給され
た(global_gain)を{(global_g
ain)−fp}に置き換えている。After that, when the iteration loop ITR is completed in step 7, the process enters a fade process F in step 8. In the fade process F, as shown in FIG. 3, in step 8a, the global_gain determined at the end of the iteration loop ITR and the supplied (global_gain) are considered in consideration of the fade parameter fp. {(Global_g
ain) -fp}.
【0034】この後、ステップ8bでは、量子化信号
と、第1の変数である置き換えられた{(globa
l_gain)−fp}と、第2の変数であるsca
lefactor(sfb)とが量子化符号化部13か
らビットストリーム化部14に送られる。Thereafter, in step 8b, the quantized signal and the replaced 置 き 換 え (globa) which is the first variable
l_gain) -fp} and the second variable sca
The factor (sfb) is sent from the quantization encoding unit 13 to the bit stream generation unit 14.
【0035】図1に戻り、ビットストリーム化部14で
は、量子化符号化部13から出力された量子化信号と、
置き換えられた{(global_gain)−fp}
と、scalefactor(sfb)とを多重化し
て、ビットストリームを出力することで、オーディオ信
号の符号化が終了する。Returning to FIG. 1, in the bit stream generator 14, the quantized signal output from the quantization encoder 13 and
Replaced {(global_gain) -fp}
And scalefactor (sfb) are multiplexed to output a bit stream, thereby completing the encoding of the audio signal.
【0036】次に、本発明に係るオーディオ信号符号化
装置10Aによりフェード用パラメータfpに基づいて
フェード処理して、得られたビットストリームを復号化
する場合には、図4に示したオーディオ信号復号化装置
20を用いており、このオーディオ信号復号化装置20
について簡略に説明する。Next, when the audio signal encoding apparatus 10A according to the present invention performs a fade process based on the fade parameter fp and decodes the obtained bit stream, the audio signal decoding shown in FIG. Audio signal decoding device 20
Will be described briefly.
【0037】上記したオーディオ信号復号化装置20で
は、本発明に係るオーディオ信号符号化装置10Aのビ
ットストリーム化部14から出力されたビットストリー
ムをビットストリーム分解部21に入力して、このビッ
トストリーム分解部21で多重化されたビットストリー
ムから、量子化信号に相当する信号と、{(globa
l_gain)−fp}に相当する信号と、scale
factor(sfb)に相当する信号とに分解して逆
量子化復号化部22に送り、この逆量子化復号化部22
で各信号に対して逆量子化を行い復号化が行われて、復
号化された各信号は周波数軸上の信号として得られる。In the audio signal decoding apparatus 20 described above, the bit stream output from the bit stream forming section 14 of the audio signal coding apparatus 10A according to the present invention is input to the bit stream decomposing section 21, From the bit stream multiplexed by the unit 21, a signal corresponding to a quantized signal and {(globa)
l_gain) -fp}, and scale
The signal is decomposed into a signal corresponding to factor (sfb) and sent to the inverse quantization decoding unit 22.
Then, inverse quantization is performed on each signal and decoding is performed, and each decoded signal is obtained as a signal on the frequency axis.
【0038】ここで、量子化信号は、フェード用パラメ
ータfpを用いて置き換えられる前のglobal_g
ainを用いて、先に説明した[数1]により量子化し
た結果である。この量子化信号に対して通常先に説明し
た[数2]により逆量子化を行うところを、前記した第
1の変数である置き換えられた{(global_ga
in)−fp}分を考慮することで、下記する[数3]
に示した逆量子化式に準拠して逆量子化を行った場合と
等価になり、復号化後の振幅レベルを減衰することがで
きる。Here, the quantized signal is global_g before being replaced using the fade parameter fp.
This is a result of quantization using “ain” and [Equation 1] described above. Normally, the inverse quantization of the quantized signal according to [Equation 2] described above is performed by replacing the first variable, ie, the replaced {(global_ga).
in) -fp}, the following [Equation 3] is obtained.
This is equivalent to the case where inverse quantization is performed according to the inverse quantization formula shown in (1), and the amplitude level after decoding can be attenuated.
【0039】[0039]
【数3】 そして、ここで用いられているフェード用パラメータf
pは、前述したようにフェード処理すべきフレーム状況
に応じて数値が設定されているが、例えば、フェード用
パラメータfp=1の場合でdB値を算出すると、dB
値は、20×log10{[数2]/[数3]}により
求められ、即ち、20×log
10{2(−fp/4)}dBとなるので、この式にf
p=1を代入すれば、20×log10{2
(−1/4)}dB=−1.505dBと求まる。(Equation 3) The fade parameter f used here is
As for p, a numerical value is set in accordance with the frame condition to be faded as described above. For example, if the dB value is calculated when the fade parameter fp = 1, dB
The value is calculated by 20 × log 10 {[Equation 2] / [Equation 3]}, that is, 20 × log 10
10 {2 (−fp / 4) } dB, so that f
By substituting p = 1, 20 × log 10 {2
( −1/4 ) ΔdB = −1.505 dB
【0040】更に、復号化後の振幅レベルを連続的に減
衰させるには、[数3]中の{(global_gai
n)−fp}におけるフェード用パラメータfpの値を
フレーム単位で増加させることが必要である。例えば、
フェード用パラメータfpを1,2,3,……と1つづ
増加させる方法や、1,3,5,……と適宜な間隔をあ
けて増加させる方法がある。このため、量子化符号化部
13内でフェード処理Fする場合、フェード用パラメー
タ入力部15に上記した各方法に対応したフェード用パ
ラメータfpの値を入力することが必要となる。Further, in order to continuously attenuate the amplitude level after decoding, {(global_gai) in [Equation 3] is used.
n) It is necessary to increase the value of the fade parameter fp in -fp} in frame units. For example,
There is a method of increasing the fade parameter fp by 1, 2, 3,... One by one, or a method of increasing the fade parameter fp by 1, 3, 5,. For this reason, when performing the fade processing F in the quantization encoding unit 13, it is necessary to input the value of the fade parameter fp corresponding to each of the above methods to the fade parameter input unit 15.
【0041】この後、逆量子化復号化部22で逆量化復
号化された各信号は、周波数時間変換部23に送られ
て、この周波数時間変換部23で周波数軸から時間軸へ
の変換が行なわれ、元のオーディオ・PCM信号に戻さ
れて周波数時間変換部23から出力される。Thereafter, the signals inversely decoded by the inverse quantization decoding unit 22 are sent to a frequency-time conversion unit 23, where the conversion from the frequency axis to the time axis is performed. Then, the signal is returned to the original audio / PCM signal and output from the frequency / time conversion unit 23.
【0042】次に、図5(a),(b)を用いて、フェ
ード用パラメータfpを使用しない場合の復号化出力例
と、フェード用パラメータfpを使用した場合の復号化
出力例とを比較して説明する。Next, referring to FIGS. 5 (a) and 5 (b), a comparison is made between a decoded output example when the fade parameter fp is not used and a decoded output example when the fade parameter fp is used. I will explain.
【0043】まず、図5(a)に示した如く、フェード
用パラメータfpを使用しないで符号化したビットスト
リームを上記したオーディオ信号復号化装置20で復号
化した復号化出力例の場合を説明すると、フレーム1及
びフレーム2に対して共にフェード用パラメータfpが
設定されてなく、この状態でフレーム1及びフレーム2
に対して窓関数の1種であるlong窓を開いてフレー
ム1とフレーム2とを接続すると、同図に示した加算結
果のように接続した部位に全くフェード処理がなされて
いないため、接続部位が不連続の場合に接続部位のレベ
ルが減衰されないので聞きずらい音となってしまう。First, as shown in FIG. 5A, an example of a decoded output example in which a bit stream encoded without using the fade parameter fp is decoded by the audio signal decoding device 20 will be described. , Frame 1 and frame 2 are not set with the fade parameter fp.
When a long window, which is a type of window function, is opened and frame 1 and frame 2 are connected to each other, no fade processing is performed on the connected portion as in the addition result shown in FIG. Is discontinuous, the level of the connection portion is not attenuated, so that the sound becomes hard to hear.
【0044】一方、図5(b)に示した如く、フェード
用パラメータfpを使用して符号化したビットストリー
ムを上記したオーディオ信号復号化装置20で復号化し
た復号化出力例の場合を説明すると、フレーム1に対し
てはフェード用パラメータfpが設定されていないもの
の、フレーム2に対してはフェード用パラメータfpが
設定されているので、この状態でフレーム1及びフレー
ム2に対してlong窓を開いてフレーム1とフレーム
2とを接続すると、同図に示した加算結果のように接続
した部位にフェード処理がなされているため、接続部位
のレベルが減衰されて滑らかで聞き心地の良い音とな
る。On the other hand, as shown in FIG. 5B, an example of a decoded output example in which a bit stream encoded using the fade parameter fp is decoded by the audio signal decoding device 20 will be described. Since the fade parameter fp is not set for the frame 1 but the fade parameter fp is set for the frame 2, the long window is opened for the frames 1 and 2 in this state. When the frame 1 and the frame 2 are connected in this way, the level of the connected portion is attenuated because the connected portion is subjected to fade processing as shown in the addition result shown in FIG. .
【0045】[0045]
【発明の効果】以上詳述した本発明に係るオーディオ信
号符号化装置によると、とくに、入力したオーディオ信
号を時間軸から周波数軸に変換してオーディオ・スペク
トル信号を出力する時間周波数変換部と、入力したオー
ディオ信号から人間の聴覚特性に基づいた聴覚パラメー
タを算出して出力する聴覚モデル部と、オーディオ信号
をフェード処理するために、入力したフェード用パラメ
ータを確認してフェード用パラメータを出力するフェー
ド用パラメータ入力部と、聴覚モデル部から出力された
聴覚パラメータを用いて時間周波数変換部から出力され
たオーディオ・スペクトル信号に対して量子化を行って
量子化信号を出力する量子化符号化部と、量子化符号化
部から出力された量子化信号をビットストリームに変換
して出力するビットストリーム化部とを備えた際に、量
子化符号化部は、量子化信号の符号量を制御するための
第1の変数と、量子化信号の量子化歪みを制御するため
の第2の変数とを用いてオーディオ・スペクトル信号を
量子化した後、フェード用パラメータにより第1の変数
を変更することで、クリック音などの異音を発生するこ
とがないようにオーディオ信号を符号化する際に、フェ
ード処理を行うことができる。According to the audio signal encoding apparatus according to the present invention described in detail above, in particular, a time-frequency converter for converting an input audio signal from a time axis to a frequency axis and outputting an audio spectrum signal; An auditory model unit that calculates and outputs auditory parameters based on human auditory characteristics from the input audio signal, and a fade that outputs the fader parameter by checking the input fader parameter to fade the audio signal A parameter input unit, and a quantization encoding unit that performs quantization on the audio spectrum signal output from the time-frequency conversion unit using the auditory parameters output from the auditory model unit and outputs a quantized signal. And a bit for converting the quantized signal output from the quantization encoding unit into a bit stream and outputting the bit stream. In the case of including the streaming unit, the quantization encoding unit includes a first variable for controlling the code amount of the quantized signal and a second variable for controlling the quantization distortion of the quantized signal. After quantizing the audio spectrum signal by using the above, by changing the first variable by the fade parameter, the audio signal is encoded so as not to generate an abnormal sound such as a click sound. , A fade process can be performed.
【図1】本発明に係るオーディオ信号符号化装置を示し
たブロック図である。FIG. 1 is a block diagram illustrating an audio signal encoding device according to the present invention.
【図2】本発明に係るオーディオ信号符号化装置におい
て、量子化時の2重ループの動作を示したフロー図であ
る。FIG. 2 is a flowchart showing an operation of a double loop at the time of quantization in the audio signal encoding apparatus according to the present invention.
【図3】図2に示したフェード処理の動作を示したフロ
ー図である。FIG. 3 is a flowchart showing an operation of the fade processing shown in FIG. 2;
【図4】本発明に係るオーディオ信号符号化装置から出
力されたビットストリームを復号化するためのオーディ
オ信号復号化装置を示したブロック図である。FIG. 4 is a block diagram showing an audio signal decoding device for decoding a bit stream output from the audio signal encoding device according to the present invention.
【図5】(a)はフェード用パラメータを使用しない場
合の復号化出力例を示した波形図であり、(b)はフェ
ード用パラメータを使用した場合の復号化出力例を示し
た波形図である。FIG. 5A is a waveform diagram illustrating a decoded output example when a fade parameter is not used, and FIG. 5B is a waveform diagram illustrating a decoded output example when a fade parameter is used. is there.
【図6】従来のオーディオ信号符号化装置を示したブロ
ック図である。FIG. 6 is a block diagram showing a conventional audio signal encoding device.
【図7】従来のオーディオ信号符号化装置において、量
子化時の2重ループの動作を示したフロー図である。FIG. 7 is a flowchart showing an operation of a double loop at the time of quantization in a conventional audio signal encoding device.
【図8】オーディオ・スペクトル信号に対するバンドs
fbとの対応を示した模式図である。FIG. 8 shows a band s for an audio spectrum signal.
It is the schematic diagram which showed the correspondence with fb.
10A…本発明に係るオーディオ信号符号化装置、 11…時間周波数変換部、 12…聴覚モデル部、 13…量子化符号化部、 14…ビットストリーム化部、 15…フェード用パラメータ入力部、 F…フェード処理、 fp…フェード用パラメータ。 10A: audio signal encoding apparatus according to the present invention, 11: time-frequency conversion unit, 12: auditory model unit, 13: quantization encoding unit, 14: bit stream generation unit, 15: parameter input unit for fade, F: Fade processing, fp: Fade parameters.
Claims (1)
信号符号化装置において、 入力した前記オーディオ信号を時間軸から周波数軸に変
換してオーディオ・スペクトル信号を出力する時間周波
数変換部と、 入力した前記オーディオ信号から人間の聴覚特性に基づ
いた聴覚パラメータを算出して出力する聴覚モデル部
と、 前記オーディオ信号をフェード処理するために、入力し
たフェード用パラメータを確認して該フェード用パラメ
ータを出力するフェード用パラメータ入力部と、 前記聴覚モデル部から出力された前記聴覚パラメータを
用いて前記時間周波数変換部から出力された前記オーデ
ィオ・スペクトル信号に対して量子化を行って量子化信
号を出力する量子化符号化部と、 前記量子化符号化部から出力された前記量子化信号をビ
ットストリームに変換して出力するビットストリーム化
部とを備えており、 前記量子化符号化部は、前記量子化信号の符号量を制御
するための第1の変数と、前記量子化信号の量子化歪み
を制御するための第2の変数とを用いて前記オーディオ
・スペクトル信号を量子化した後、前記フェード用パラ
メータにより前記第1の変数を変更することを特徴とす
るオーディオ信号符号化装置。1. An audio signal encoding apparatus for encoding an audio signal, comprising: a time-frequency converting unit for converting the input audio signal from a time axis to a frequency axis to output an audio spectrum signal; A hearing model unit for calculating and outputting a hearing parameter based on a human hearing characteristic from a signal, and a fade for outputting a fade parameter after confirming an input fade parameter in order to perform a fade process on the audio signal. A parameter input unit, and a quantization code that performs quantization on the audio spectrum signal output from the time-frequency conversion unit using the auditory parameter output from the auditory model unit and outputs a quantized signal. A quantizing unit, and the quantized signal output from the quantization encoding unit. A bit stream conversion unit that converts the stream into a stream and outputs the stream. The quantization coding unit includes a first variable for controlling a code amount of the quantization signal, and a quantization of the quantization signal. An audio signal encoding apparatus, comprising: quantizing the audio spectrum signal using a second variable for controlling distortion, and changing the first variable according to the fade parameter.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2000308274A JP2002116799A (en) | 2000-10-06 | 2000-10-06 | Audio signal encoding device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2000308274A JP2002116799A (en) | 2000-10-06 | 2000-10-06 | Audio signal encoding device |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2002116799A true JP2002116799A (en) | 2002-04-19 |
Family
ID=18788615
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2000308274A Pending JP2002116799A (en) | 2000-10-06 | 2000-10-06 | Audio signal encoding device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2002116799A (en) |
-
2000
- 2000-10-06 JP JP2000308274A patent/JP2002116799A/en active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3926726B2 (en) | Encoding device and decoding device | |
| US8370133B2 (en) | Method and device for noise filling | |
| JP5048697B2 (en) | Encoding device, decoding device, encoding method, decoding method, program, and recording medium | |
| Atal | Predictive coding of speech at low bit rates | |
| JP4570250B2 (en) | System and method for entropy encoding quantized transform coefficients of a signal | |
| CN101207665B (en) | A method for obtaining attenuation factor | |
| KR20030076576A (en) | Enhancing the performance of coding systems that use high frequency reconstruction methods | |
| JPH10282999A (en) | Method and device for coding audio signal, and method and device decoding for coded audio signal | |
| JP2004515801A (en) | Perceptual improvement of audio signal coding | |
| US5794180A (en) | Signal quantizer wherein average level replaces subframe steady-state levels | |
| JP4308229B2 (en) | Encoding device and decoding device | |
| JP2002116799A (en) | Audio signal encoding device | |
| JP4409733B2 (en) | Encoding apparatus, encoding method, and recording medium therefor | |
| JP4024185B2 (en) | Digital data encoding device | |
| JP3630082B2 (en) | Audio signal encoding method and apparatus | |
| JP4516345B2 (en) | Speech coding information processing apparatus and speech coding information processing program | |
| JP3580485B2 (en) | Audio signal encoding method | |
| Holters et al. | Delay-free lossy audio coding using shelving pre-and post-filters | |
| JP2005004119A (en) | Sound signal encoding device and sound signal decoding device | |
| Wabnik et al. | Different quantisation noise shaping methods for predictive audio coding | |
| Motta et al. | An Audio Compression Method Based on Wavelet Packet Decomposition, Ordering, and Polynomial Approximation of Expressive Coefficients | |
| JP2001154697A (en) | Audio signal encoding method | |
| JPS6342532A (en) | Audio encoding device | |
| HK1143238A (en) | Method and device for perceptual spectral decoding of an audio signal including filling of spectral holes | |
| HK1143238B (en) | Method and device for perceptual spectral decoding of an audio signal including filling of spectral holes |