[go: up one dir, main page]

WO2007088853A1 - 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法 - Google Patents

音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法 Download PDF

Info

Publication number
WO2007088853A1
WO2007088853A1 PCT/JP2007/051503 JP2007051503W WO2007088853A1 WO 2007088853 A1 WO2007088853 A1 WO 2007088853A1 JP 2007051503 W JP2007051503 W JP 2007051503W WO 2007088853 A1 WO2007088853 A1 WO 2007088853A1
Authority
WO
WIPO (PCT)
Prior art keywords
amplitude
coefficient
spectral
conversion
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2007/051503
Other languages
English (en)
French (fr)
Inventor
Chun Woei Teo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2007556867A priority Critical patent/JPWO2007088853A1/ja
Priority to US12/162,645 priority patent/US20090018824A1/en
Publication of WO2007088853A1 publication Critical patent/WO2007088853A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Definitions

  • Speech coding apparatus speech decoding apparatus, speech coding system, speech coding method, and speech decoding method
  • the present invention relates to a speech encoding device, speech decoding device, speech encoding system, speech encoding method, and speech decoding method.
  • An audio codec (monaural codec) that encodes a monaural representation of an audio signal has become the current standard.
  • Such monaural codecs are generally used in communication devices such as mobile phones and video conference devices that assume a single sound source such as human voice.
  • stereo audio signal encoding methods a method using signal prediction or signal estimation technology is known. Specifically, one channel is encoded by a known speech coder, and the channel strength that has been encoded is predicted or estimated by using the secondary information of the other channel.
  • Patent Document 1 Such a method is described in Patent Document 1 as part of the normal 'cue' coding described in Non-Patent Document 1, and is used to adjust the level of one channel with reference to the reference channel. Applied to the calculation of the level difference (ILD) between channels.
  • ILD level difference
  • the prediction signal or the estimation signal is often less accurate than the original signal. For this reason, it is necessary to emphasize the prediction signal or the estimation signal and make these signals as close as possible to the original signals.
  • audio and audio signals are generally processed in the frequency domain.
  • This frequency domain Data is commonly referred to as “spectral coefficients” in the transform domain. Therefore, prediction and estimation as described above are performed in the frequency domain.
  • the spectral data power of the left and Z or right channels can be estimated by extracting part of the side information and applying the extracted part of the side information to the mono channel (Patent Document 1). reference).
  • a method of estimating one channel with another channel force so that the left channel can be estimated for example.
  • Such estimation is performed by estimating spectral energy or spectral amplitude in audio and audio processing. This is also called spectral energy prediction or scaling.
  • a time domain signal is converted to a frequency domain signal.
  • This frequency domain signal is usually divided into frequency bands according to a critical band. This division is performed for both the reference channel and the channel to be estimated. The energy is calculated for each frequency band of both channels, and the scale factor is calculated using the energy ratio of both channels.
  • This scale factor is transmitted to the receiver side, and the reference channel is searched for an estimated signal in the transform domain. Therefore, the scale factor is expanded or reduced for each frequency band using this scale factor. Thereafter, inverse frequency transformation is performed to obtain a time domain signal corresponding to the estimated transform domain spectrum data.
  • Non-Patent Document 1 the frequency domain spectral coefficients are divided into critical bands, and the energy and scale factor of each band are directly calculated.
  • the basic concept of this prior art method is to adjust the energy of each band so that when divided in the same way, the energy of the original signal is almost the same.
  • Patent Document 1 International Publication No. 03Z090208 Pamphlet
  • Non-Patent Literature 1 C. Faller and F. Baumgarte, Binaural cue coding: A novel and efficien te representation of spatial audio ", Proc. ICASSP, Orlando, Florida, Oct. 2002. Disclosure of the Invention
  • Non-Patent Document 1 the method described in Non-Patent Document 1 described above can be easily realized, and the energy of each band is close to the original signal, but a more precise spectral waveform can be modeled. Is not possible, and usually the details of the spectral waveform are different from the original signal.
  • An object of the present invention is to provide a speech encoding device, speech decoding device, speech encoding system, speech encoding method, and speech decoding method that model a spectral waveform and accurately restore the spectral waveform. .
  • the speech coding apparatus includes a conversion unit that performs frequency conversion on a first input signal to form a frequency domain signal, and a first calculation unit that calculates a first spectral amplitude of the frequency domain signal.
  • a second calculating means for performing frequency conversion on the first spectrum amplitude and calculating a second spectrum amplitude; and a specifying means for identifying peak positions of a plurality of upper peaks of the second spectrum amplitude And a selecting means for selecting a transform coefficient of the second spectral amplitude corresponding to the specified peak position, and a quantizing means for quantizing the selected transform coefficient.
  • the speech decoding apparatus acquires a plurality of higher-order quantized transform coefficients among the transform coefficients obtained by performing two frequency transforms on the input signal, and reverses the acquired transform coefficients.
  • An inverse conversion means for reconstructing the estimated value and acquiring a linear value of the spectral amplitude estimated value is adopted.
  • the speech coding system of the present invention includes a conversion unit that performs frequency conversion on an input signal to form a frequency domain signal, a first calculation unit that calculates a first spectral amplitude of the frequency domain signal, A second calculating means for performing frequency conversion on the first outer amplitude and calculating a second outer amplitude; an identifying means for identifying peak positions of a plurality of upper peaks of the second spectral amplitude; A speech encoding device comprising: selection means for selecting a transform coefficient of the second spectral amplitude corresponding to the specified peak position; and quantization means for quantizing the selected transform coefficient; Dequantizing means for inversely quantizing the transformed transform coefficients, scalar coefficient forming means for arranging the transform coefficients on the frequency axis to form spectral coefficients, and performing inverse frequency transform on the spectral coefficients to obtain a spectrum.
  • the inverse transformation method reconstructs the estimated amplitude of the torque amplitude and obtains the linear value of the estimated spectrum amplitude.
  • a spectrum waveform can be modeled and the spectrum waveform can be accurately restored.
  • FIG. 1 is a block diagram showing the configuration of a speech signal spectral amplitude estimation apparatus according to Embodiment 1 of the present invention.
  • FIG. 2 is a block diagram showing a configuration of a spectral amplitude estimation decoding apparatus according to Embodiment 1 of the present invention.
  • FIG. 5 is a block diagram showing a configuration of a speech code key system according to Embodiment 1 of the present invention.
  • FIG. 6 is a block diagram showing a configuration of a residual signal estimation apparatus according to Embodiment 2 of the present invention.
  • FIG. 7 is a block diagram showing a configuration of an estimation residual signal estimation decoding apparatus according to Embodiment 2 of the present invention.
  • FIG. 9 is a block diagram showing a configuration of a stereo speech coding system according to Embodiment 2 of the present invention.
  • FIG. 1 is a block diagram showing the configuration of speech signal spectral amplitude estimation apparatus 100 according to Embodiment 1 of the present invention.
  • This spectral amplitude estimation apparatus 100 is mainly used for a speech coding apparatus.
  • an FFT (Fast Fourier Transform) unit 101 receives a driving sound source signal e , converts the driving sound source signal e into a frequency domain signal by forward frequency conversion, and a first outer amplitude calculation unit 102. Output to. Note that this input signal may be shifted in monaural, left or right channel of the signal source.
  • FFT Fast Fourier Transform
  • First spectrum amplitude calculation section 102 calculates the amplitude A of the driving sound source signal e in the frequency domain output from FFT section 101, and logarithm conversion section 103 calculates the calculated amplitude A of the spectrum. Output to.
  • the logarithmic conversion unit 103 converts the spectral amplitude A output from the first spectral amplitude calculation unit 102 into a logarithmic scale, and outputs the logarithmic scale to the FFT unit 104. Note that conversion to a logarithmic scale is not essential. If the logarithmic scale is not used, the absolute value of the spectrum amplitude may be used in the subsequent processing.
  • the FFT unit 104 obtains a frequency representation (complex coefficient C) of the spectrum amplitude by performing a second forward frequency conversion on the spectrum amplitude of the logarithmic scale output from the logarithmic conversion unit 103, The obtained complex coefficient C is used as the second spectrum amplitude calculation unit 105 and the coefficient.
  • the data is output to the selection unit 107.
  • Second spectrum amplitude calculation section 105 uses complex coefficient C output from FFT section 104.
  • the peak point position specifying unit 106 searches for the first highest peak force up to the Nth highest peak in the vector amplitude A output from the second spectrum amplitude calculating unit 105.
  • the peak position Pos of the eye is output to the coefficient selection unit 107.
  • the coefficient selection unit 107 outputs the peak position Pos output from the peak point position specifying unit 106.
  • N of the complex coefficients C output from the FFT unit 104 are selected and selected.
  • N complex coefficients C are output to the quantization unit 108.
  • the quantization unit 108 quantizes the complex coefficient C output from the coefficient selection unit 107 by a scalar quantization method or a vector quantization method, and outputs a quantization coefficient C ′′.
  • FIG. 2 is a block diagram showing a configuration of spectrum amplitude estimation decoding apparatus 150 according to Embodiment 1 of the present invention.
  • This spectral amplitude estimation decoding device 150 is mainly used for speech decoding. Used in equipment.
  • an inverse quantization unit 151 dequantizes the quantization coefficient C ′ transmitted from the spectrum amplitude estimation device 100 shown in FIG. 1 to obtain a coefficient, and uses the obtained coefficient as a spectrum coefficient forming unit 152. Output to.
  • Spectral coefficient forming section 152 places the coefficient output from inverse quantization section 151 in each of peak positions Pos transmitted from spectrum amplitude estimating apparatus 100 shown in FIG.
  • the spectral coefficients (complex coefficients) necessary for the reverse frequency conversion. Note that the number of samples of these coefficients is the same as the number of samples of the coefficient on the encoder side. For example, the length of the spectrum amplitude A is 64 samples and N is
  • IFFT section 153 reconstructs the estimated value of the spectral amplitude on a logarithmic scale by performing inverse frequency conversion on the spectral coefficient output from spectral coefficient forming section 152.
  • the reconstructed logarithmic scale spectral amplitude estimation value is output to the inverse logarithmic conversion unit 154.
  • the inverse logarithmic conversion unit 154 takes the inverse logarithm of the spectrum amplitude estimation value output from the IFFT unit 153, and obtains the spectrum amplitude A 'using a linear scale. As described above, since conversion to a logarithmic scale is not essential, when the spectrum amplitude estimation apparatus 100 does not include the logarithmic conversion unit 103, the inverse logarithmic conversion unit 154 does not include. In this case, the result of inverse frequency conversion in IFFT section 153 is a reconstructed estimate of the spectral amplitude on the linear scale.
  • FIG. 3 is a diagram showing a spectrum of a stationary signal.
  • Figure 3A shows one frame of the time-domain signal for the stationary part of the driving sound source signal.
  • Figure 3B shows the spectral amplitude of the driving sound source signal converted from the time domain to the frequency domain.
  • the spectrum amplitude shows a certain periodicity as shown in the graph of Fig. 3B.
  • the spectrum amplitude is treated as an arbitrary signal and frequency conversion is performed on it, this periodicity is shown when calculating the amplitude of the converted spectrum, as shown by the peak in the graph of FIG. 3C.
  • the spectral amplitude can be estimated from the graph in Fig. 3 (b) by taking a smaller number of coefficients (real and imaginary). For example, the periodicity of the spectral amplitude was obtained by signing the peak at point 31 of the dull in Figure 3B. It will be.
  • FIG. 3C shows a set of reduced coefficients corresponding to the positions indicated by the black circle peak points.
  • FIG. 4 shows the spectrum of the unsteady signal.
  • Figure 4A shows one frame of the time domain signal for the non-stationary part of the driving sound source signal.
  • the spectral amplitude can be estimated in the same way as for stationary signals.
  • FIG. 4B shows the spectrum amplitude obtained by converting the driving sound source signal into the time domain force frequency domain.
  • the spectral amplitude does not show any periodicity as shown in Figure 4B. Also, since it is applied to the unsteady part of the signal, as shown in Fig. 4C, there is no signal concentration in any part, and the points are dispersed.
  • FIG. 5 is a block diagram showing a configuration of speech coding system 200 according to Embodiment 1 of the present invention. Here, first, the encoder side will be described.
  • the LPC analysis filter 201 filters the input audio signal S to obtain an LPC coefficient and a driving sound source signal e.
  • the LPC coefficient is transmitted to the LPC synthesis filter 210 on the decoder side, and the driving excitation signal e is output to the encoder 202 and the FFT unit 203.
  • the encoder 202 has the configuration of the spectral amplitude estimation device shown in FIG. 1, estimates the spectral amplitude of the driving excitation signal e output from the LPC analysis filter 201, and uses the coefficient C ”and the respective coefficients. Obtain peak position Pos and decode quantization coefficient C "and peak position Pos
  • the FFT unit 203 converts the driving sound source signal e output from the LPC analysis filter 201 into a frequency domain, and calculates a complex spectral coefficient (R, I) spectrum.
  • e Generates e and outputs the complex coefficient to the phase data calculation unit 204.
  • the phase data calculation unit 204 calculates the phase data ⁇ of the driving sound source signal e using the complex spectral coefficient output from the FFT unit 203 and outputs the calculated phase data ⁇ to the phase quantization unit 205. .
  • Phase quantization section 205 quantizes phase data ⁇ output from phase data calculation section 204, and transmits quantized phase data ⁇ to phase inverse quantization section 207 on the decoder side.
  • Decoder 206 has the configuration of the spectral amplitude estimation decoding device shown in Fig. 2, and uses quantized coefficient C 'and peak position Pos transmitted from encoder 202 on the encoder side,
  • the spectrum amplitude estimation value A ”of the driving sound source signal e is acquired, and the acquired spectrum amplitude estimation value A ′ is output to the polar quadrature conversion unit 208.
  • the phase inverse quantization unit 207 inversely quantizes the quantized phase data ⁇ transmitted from the phase quantization unit 205 on the encoder side, acquires the phase data ⁇ ', and outputs it to the polar quadrature conversion unit 208 To do.
  • the polar quadrature conversion unit 208 uses the phase data ⁇ 'output from the phase inverse quantization unit 207.
  • the spectral amplitude estimation value A ′ output from the decoder 206 is converted into complex spectral coefficients (R ,, ⁇ ) in real and imaginary formats, and output to the IFFT unit 209.
  • IFFT section 209 converts the complex spectral coefficient output from polar quadrature conversion section 208 into a frequency domain signal power time domain signal, and obtains an estimated driving sound source signal.
  • the obtained estimated driving sound source signal e is output to the LPC synthesis filter 210.
  • the LPC synthesis filter 210 uses the estimated driving excitation signal e 'output from the IFFT unit 209 and the LPC coefficient output from the LPC analysis filter 201 on the encoder side to generate an estimated input signal S'. Synthesized.
  • the encoder side performs FFT processing on the spectral amplitude of the driving excitation signal to obtain the FFT conversion coefficient, and the obtained FFT conversion coefficient
  • the position of the top N peak amplitudes is specified, the FFT conversion coefficient corresponding to the specified position is selected, and the FFT conversion selected by the encoder is performed on the decoder side.
  • the spectrum amplitude can be restored by placing the coefficient at the position specified by the encoder side, forming the extra coefficient, and applying IFFT processing to the formed spectral coefficient.
  • the spectrum amplitude can be expressed by using a small number of FFT conversion coefficients. Therefore, since the FFT conversion coefficient can be expressed with a small number of bits, the bit rate can be reduced.
  • the case where the spectrum amplitude is estimated has been described.
  • the difference (residual signal) between the reference signal and the estimated value of the reference signal is encoded will be described.
  • the residual signal is similar to the spectrum shown in Fig. 4 because it is close to a random signal that tends to be unsteady. Therefore, the residual signal can be estimated by applying the spectral amplitude estimation method described in the first embodiment.
  • FIG. 6 is a block diagram showing a configuration of residual signal estimation apparatus 300 according to Embodiment 2 of the present invention.
  • This residual signal estimation apparatus 300 is mainly used for a speech encoding apparatus.
  • the FFT unit 301a converts the reference driving sound source signal e into a frequency domain signal by forward frequency conversion, and outputs it to the first outer amplitude calculation unit 302a.
  • the first spectral amplitude calculation unit 302a calculates the spectral amplitude A of the reference driving sound source signal in the frequency domain output from the FFT unit 301a, and outputs the calculated spectral amplitude A to the first logarithmic conversion unit 303a. To do.
  • the first logarithmic conversion unit 303 a converts the spectral amplitude A output from the first spectral amplitude calculation unit 302 a into a logarithmic scale, and outputs the logarithmic scale to the adder 304.
  • the FFT unit 301b estimates the same processing as the FFT unit 301a
  • the third spectral amplitude calculation unit 302b estimates the same processing as the first spectral amplitude calculation unit 302a
  • the second logarithmic conversion unit 303b estimates the same processing as the first logarithmic conversion unit 303a. Do this for the driving sound source signal.
  • the adder 304 uses the spectral amplitude output from the first logarithmic conversion unit 303a as a reference value, and the difference spectral amplitude D (residual signal) from the estimated spectral amplitude value output from the second logarithmic conversion unit 303b And the difference spectrum amplitude D is output to the FFT unit 104.
  • FIG. 7 is a block diagram showing a configuration of estimated residual signal estimation decoding apparatus 350 according to Embodiment 2 of the present invention.
  • This estimated residual signal estimation decoding apparatus 350 is mainly used for a speech decoding apparatus.
  • the IFFT unit 153 reconstructs the estimated value D ′ of the difference vector amplitude in the logarithmic scale by performing inverse frequency conversion on the spectral coefficient output from the spectral coefficient forming unit 152.
  • the reconstructed difference spectral amplitude estimate D ′ is output to adder 354.
  • the FFT unit 351 calculates the conversion coefficient C of the estimated driving sound source signal by forward frequency conversion.
  • the spectrum amplitude calculation unit 352 uses the transform coefficient C. output from the FFT unit 351 to generate e
  • the spectrum amplitude A of the estimated driving sound source signal that is, the estimated spectrum amplitude A ′′ is calculated, and the calculated estimated spectrum amplitude A ′ is output to the logarithmic conversion unit 353.
  • the logarithmic conversion unit 353 is the estimated spectral amplitude output from the spectral amplitude calculation unit 352
  • Adder 354 adds estimated value D ′ of the difference spectrum amplitude output from IFFT section 153 and the estimated value of the logarithmic scale spectrum amplitude output from logarithmic conversion section 353, and enhances the spectrum amplitude. Get the estimated value.
  • the adder 354 outputs the estimated value with the spectral amplitude emphasized to the antilogarithmic conversion unit 154.
  • the inverse logarithmic conversion unit 154 takes the inverse logarithm of the estimated value of the spectrum amplitude output from the adder 354, and converts the spectrum amplitude to the vector amplitude of the linear scale.
  • each frame of the difference spectrum amplitude signal D is divided into M subframes. Apply the difference spectrum amplitude signal D to.
  • the size of each subframe may be equally divided or may be divided non-linearly.
  • one frame is non-linearly divided into four subframes so that the low frequency region has a small subframe and the high frequency region has a large subframe. Show the case.
  • the difference spectral amplitude signal D is applied to each subframe divided in this way.
  • One advantage of using subframes is that different numbers of coefficients can be assigned to different subframes based on their importance. For example, since a low subframe corresponding to a low frequency region is considered important, more coefficients can be assigned to this region compared to a high subframe that is a high frequency region. Note that FIG. 8 shows a case where more coefficients are assigned to a higher subframe than to a lower subframe.
  • FIG. 9 is a block diagram showing a configuration of stereo speech coding system 400 according to Embodiment 2 of the present invention.
  • the basic concept of this system is to encode the reference mono channel, the mono channel power also predicts or estimates the left channel, and derives the right channel from the mono and left channel channels.
  • the encoder side will be described first.
  • an LPC analysis filter 401 filters the monaural channel signal M to obtain the monaural driving sound source signal e, the monaural channel LPC coefficient, and the driving sound source parameter.
  • the monaural drive sound source signal e is output to the covariance estimation unit 403, and the monaural channel LP
  • the C coefficient is transmitted to the LPC decoder 405 on the decoder side, and the driving excitation parameter is transmitted to the driving excitation signal generator 406 on the decoder side.
  • the monaural drive sound source signal e is the left drive sound.
  • the LPC analysis filter 402 filters the left channel signal L and outputs the left driving sound source signal e
  • the left channel LPC coefficient is obtained, and the left driving sound source signal e is obtained from the covariance estimation unit 403 and the sign.
  • the data is output to the encoder 404 and the left channel LPC coefficient is transmitted to the LPC decoder 413 on the decoder side.
  • the left driving sound source signal e is a reference signal for predicting the left channel driving sound source signal.
  • the covariance estimation unit 403 uses the monaural driving sound source signal e output from the LPC analysis filter 401 and the left driving sound source signal e output from the LPC analysis filter 402 as follows.
  • the left driving excitation signal is estimated by minimizing the expression (1) in (1), and the estimated left driving excitation signal is output to the encoder 404.
  • P is the filter length
  • L is the signal length to be processed
  • is the filter coefficient.
  • the filter coefficient IS is transmitted to the signal estimation unit 408 on the decoder side and used for estimation of the left drive excitation signal.
  • the encoder 404 has the configuration of the residual signal estimation apparatus shown in FIG. 6, and is output from the reference drive excitation signal e output from the LPC analysis filter 402 and the covariance estimation unit 403.
  • the transformed coefficient C ′ and the peak position Pos are transmitted to the decoder 409 on the decoder side.
  • the LPC decoder 405 decodes the monaural channel LPC coefficient transmitted from the LPC analysis filter 401 on the encoder side, and outputs the decoded monaural channel LPC coefficient to the LPC synthesis filter 407.
  • the driving excitation signal generator 406 is transmitted from the LPC analysis filter 401 on the encoder side. Using the driving sound source parameter, a monaural driving sound source signal e is generated and output to the LPC synthesis filter 407 and the signal estimation unit 408.
  • the LPC synthesis filter 407 uses the monaural channel LPC coefficient output from the LPC decoder 405 and the monaural driving sound source signal e output from the driving sound source signal generator 406.
  • the signal estimation unit 408 filters the monaural driving excitation signal e output from the driving excitation signal generator 406 with a filter coefficient 13 transmitted from the covariance estimation unit 403 on the encoder side.
  • the left driving sound source signal is estimated by culling, and the estimated left driving sound source signal e ′ is decoded by the decoder 409.
  • Decoder 409 has the configuration of the estimated residual signal estimation decoding apparatus shown in FIG. 7, and the estimated left drive sound source signal output from signal estimation section 408 is encoded by encoder 404 on the encoder side. Sent from
  • Torque amplitude A ⁇ and output the acquired enhanced spectral amplitude A ⁇ to the polar quadrature converter 411.
  • Phase calculation section 410 uses estimated left drive sound source signal e 'output from signal estimation section 408.
  • phase data ⁇ is calculated, and the calculated phase data ⁇ is output to the polar quadrature conversion unit 411.
  • the polar-rectangular conversion unit 411 uses the phase data ⁇ output from the phase calculation unit 410 to perform decoding.
  • the enhanced spectral amplitude A ⁇ output from the instrument 409 is converted from polar format to rectangular format, and IFF
  • the IFFT unit 412 converts the rectangular enhanced spectral amplitude output from the polar-rectangular transform unit 411 into a frequency domain signal power time domain signal by reverse frequency transformation to form a spectrum enhanced drive sound source signal e '. .
  • Spectral emphasis driving sound source e ' is LPC synthesis filter 4
  • Decoder 413 decodes the left channel LPC coefficient transmitted from LPC analysis filter 402 on the encoder side, and outputs the decoded left channel LPC coefficient to LPC synthesis filter 414.
  • the LPC synthesis filter 414 uses the spectrum-enhanced driving excitation signal e 'output from the IFFT unit 412 and the left channel LPC coefficient output from the LPC decoder 413 to perform left channeling.
  • the signal L ′ is synthesized and output to the right channel deriving unit 415.
  • the right channel signal R can be derived from the relationship between 'and the left channel signal L' output from the LPC synthesis filter 414.
  • the encoder side encodes the residual signal of the spectral amplitude of the reference driving excitation signal and the spectral amplitude of the estimated driving excitation signal, On the decoder side, the residual signal is restored, and the restored residual signal is added to the spectrum amplitude estimate value to emphasize the extra amplitude estimate value, and the reference drive excitation signal before encoding is scanned. It can be close to the amplitude.
  • each functional block used in the description of each of the above embodiments is typically realized as an LSI that is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them. Here, it is sometimes called IC, system LSI, super LSI, or ultra LSI, depending on the difference in power integration.
  • circuit integration is not limited to LSI's, and implementation using dedicated circuitry or general purpose processors is also possible.
  • An FPGA Field Programmable Gate Array
  • reconfigurable 'processor that can reconfigure the connection and settings of circuit cells inside the LSI may be used.
  • the speech coding apparatus, speech decoding apparatus, speech coding system, speech coding method, and speech decoding method according to the present invention can model a spectrum waveform and accurately restore the spectrum waveform, and can be used for cellular phones and televisions. Applicable to communication equipment such as conference equipment.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

 スペクトル波形をモデル化し、スペクトル波形を正確に復元する音声符号化装置。この音声符号化装置では、FFT部(104)が、駆動音源信号のスペクトル振幅にFFT処理を施してFFT変換係数を求め、第2スペクトル振幅算出部(105)が、FFT変換係数の第2スペクトル振幅を算出する。ピークポイント位置特定部(106)が、第2スペクトル振幅のピークを上位N個について位置を特定し、係数選択部(107)が、特定した位置に対応するFFT変換係数を選択する。量子化部108が、選択されたFFT変換係数を量子化する。

Description

明 細 書
音声符号化装置、音声復号装置、音声符号化システム、音声符号化方 法及び音声復号方法
技術分野
[0001] 本発明は、音声符号化装置、音声復号装置、音声符号化システム、音声符号化方 法及び音声復号方法に関する。
背景技術
[0002] 音声信号のモノラル表現を符号ィ匕する音声コーデック(モノラルコーデック)は、現 在の標準となっている。そのようなモノラルコーデックは、人の音声などの単一音源を 想定する携帯電話やテレビ会議用機器などの通信機器で一般に使用されている。
[0003] 従来、通信機器の送信帯域や DSPの処理速度の制限のためモノラル信号でも十 分な音質であつたが、技術及び帯域の向上に伴い、これらの制限はなくなりつつあり 、より高い音質が求められている。
[0004] モノラル音声の弱点の一つは、話し手のサウンドイメージ、または位置などの空間 情報が得られないことである。このため、できるだけ低いビットレートでよりよい音声認 識が得られるように良好なステレオ音質を実現することが要求されて 、る。
[0005] ステレオ音声信号の符号化方法の一つに、信号予測または信号推定技術を用い る方法が知られている。具体的には、一つのチャネルを既知の音声符号化器で符号 化し、他のチャネルの副次的情報を用いて、符号ィ匕したチャネル力も他のチャネルを 予測または推定するものである。
[0006] このような方法は、非特許文献 1に記載のノイノーラル 'キュー'コーディングの一部 として、特許文献 1に記載されており、基準チャネルを基準として一つのチャネルのレ ベルを調整するためにチャネル間のレベル差 (ILD)の計算に適用されて!ヽる。
[0007] ところが、予測信号または推定信号は元の信号に比較してあまり正確ではないこと が多い。このため、予測信号または推定信号を強調し、これらの信号を元の信号にで きるだけ近づける必要がある。
[0008] ここで、オーディオ、音声信号は一般に周波数領域で処理される。この周波数領域 データは、一般に変換領域における「スペクトル係数」と呼ばれる。したがって、上記 のような予測および推定は、周波数領域で行われる。例えば、左および Zまたは右 チャネルのスペクトルデータ力 その副次情報の一部が抽出され、抽出された副次 情報の一部をモノラルチャネルに適用することによって推定することができる(特許文 献 1参照)。
[0009] その他の方法として、例えば右チャネル力 左チャネルを推定できるように、一つの チャネルを別のチャネル力も推定する方法がある。このような推定は、オーディオ、音 声処理においてスペクトルエネルギーまたはスペクトル振幅を推定することにより行わ れる。これは、スペクトルエネルギー予測またはスケーリングとも呼ばれる。
[0010] 代表的なスペクトルエネルギー予測では、時間領域信号が周波数領域信号に変換 される。この周波数領域信号は、通常、臨界帯域に従って周波数帯域に分割される 。この分割は、基準チャネルおよび推定の対象となるチャネルの双方に対して行われ る。そして、両チャネルの周波数帯域ごとにエネルギーを計算し、両チャネルのエネ ルギー比を用いてスケールファクタを計算する。このスケールファクタは受信機側に 送信され、そこで基準チャネルは変換領域で推定信号が検索されるため、このスケ ールファクタを用いて周波数帯域ごとに拡大または縮小される。この後、周波数の逆 変換を施して推定変換領域スペクトルデータに対応する時間領域信号を得る。
[0011] 上述した非特許文献 1に記載の方法では、周波数領域スペクトル係数は臨界帯域 に分割され、各帯域のエネルギーおよびスケールファクタは、直接計算される。この 先行技術による方法の基本概念は、同様に分割したときに元の信号のエネルギーと ほぼ同じになるように各帯域のエネルギーを調整することである。
特許文献 1:国際公開第 03Z090208号パンフレット
非特干文献 1 : C. Faller and F. Baumgarte, Binaural cue coding: A novel and efficie nt representation of spatial audio", Proc. ICASSP, Orlando, Florida, Oct. 2002. 発明の開示
発明が解決しょうとする課題
[0012] し力しながら、上述した非特許文献 1に記載の方法は容易に実現可能であり、各帯 域のエネルギーは元の信号に近 、が、さらに精密なスペクトル波形をモデルィ匕するこ とは不可能であり、通常、スペクトル波形の細部は元の信号とは異なる。
[0013] 本発明の目的は、スペクトル波形をモデル化し、スペクトル波形を正確に復元する 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声 復号方法を提供することである。
課題を解決するための手段
[0014] 本発明の音声符号化装置は、第 1入力信号に周波数変換を施し、周波数領域信 号を形成する変換手段と、前記周波数領域信号の第 1スペクトル振幅を算出する第 1算出手段と、前記第 1スぺ外ル振幅に周波数変換を施し、第 2スぺ外ル振幅を算 出する第 2算出手段と、前記第 2スペクトル振幅の上位複数のピークのピーク位置を 特定する特定手段と、特定された前記ピーク位置に該当する前記第 2スペクトル振幅 の変換係数を選択する選択手段と、選択された前記変換係数を量子化する量子化 手段と、を具備する構成を採る。
[0015] 本発明の音声復号装置は、入力信号に 2回の周波数変換を施して得られた変換係 数のうち、上位複数の量子化された変換係数を取得し、取得した変換係数を逆量子 化する逆量子化手段と、前記変換係数を周波数軸上に配置し、スぺ外ル係数を形 成するスペクトル係数形成手段と、前記スペクトル係数に逆周波数変換を施してスぺ タトル振幅の推定値を再構成し、前記スペクトル振幅推定値の線形値を取得する逆 変換手段と、を具備する構成を採る。
[0016] 本発明の音声符号ィ匕システムは、入力信号に周波数変換を施し、周波数領域信 号を形成する変換手段と、前記周波数領域信号の第 1スペクトル振幅を算出する第 1算出手段と、前記第 1スぺ外ル振幅に周波数変換を施し、第 2スぺ外ル振幅を算 出する第 2算出手段と、前記第 2スペクトル振幅の上位複数のピークのピーク位置を 特定する特定手段と、特定された前記ピーク位置に該当する前記第 2スペクトル振幅 の変換係数を選択する選択手段と、選択された前記変換係数を量子化する量子化 手段と、を有する音声符号化装置と、量子化された前記変換係数を逆量子化する逆 量子化手段と、前記変換係数を周波数軸上に配置し、スペクトル係数を形成するス ベクトル係数形成手段と、前記スペクトル係数に逆周波数変換を施してスペクトル振 幅の推定値を再構成し、前記スペクトル振幅推定値の線形値を取得する逆変換手 段と、を具備する音声復号装置と、を具備する構成を採る。
発明の効果
[0017] 本発明によれば、スペクトル波形をモデル化し、スペクトル波形を正確に復元するこ とがでさる。
図面の簡単な説明
[0018] [図 1]本発明の実施の形態 1に係る音声信号用スペクトル振幅推定装置の構成を示 すブロック図
[図 2]本発明の実施の形態 1に係るスペクトル振幅推定復号装置の構成を示すブロッ ク図
[図 3]定常信号のスペクトルを示す図
[図 4]非定常信号のスペクトルを示す図
[図 5]本発明の実施の形態 1に係る音声符号ィ匕システムの構成を示すブロック図 [図 6]本発明の実施の形態 2に係る残差信号推定装置の構成を示すブロック図
[図 7]本発明の実施の形態 2に係る推定残差信号推定復号装置の構成を示すブロッ ク図
[図 8]分割したサブフレームに係数を割り当てる様子を示す図
[図 9]本発明の実施の形態 2に係るステレオ音声符号ィ匕システムの構成を示すブロッ ク図
発明を実施するための最良の形態
[0019] 以下、本発明の実施の形態について、図面を参照して詳細に説明する。ただし、実 施の形態において、同一の構成には同一の符号を付し、重複する説明は省略する。
[0020] (実施の形態 1)
図 1は、本発明の実施の形態 1に係る音声信号用スペクトル振幅推定装置 100の 構成を示すブロック図である。このスペクトル振幅推定装置 100は、主として音声符 号化装置に用いられる。この図において、 FFT(Fast Fourier Transform)部 101は、 駆動音源信号 eを入力とし、駆動音源信号 eを順方向周波数変換によって周波数領 域信号に変換し、第 1スぺ外ル振幅算出部 102に出力する。なお、この入力信号は 信号源のモノラル、左または右チャネルの 、ずれかが考えられる。 [0021] 第 1スペクトル振幅算出部 102は、 FFT部 101から出力された周波数領域における 駆動音源信号 eのスぺ外ル振幅 Aを算出し、算出したスぺ外ル振幅 Aを対数変換 部 103に出力する。
[0022] 対数変換部 103は、第 1スペクトル振幅算出部 102から出力されたスペクトル振幅 Aを対数目盛に変換し、 FFT部 104に出力する。なお、対数目盛への変換は必須で はなぐ対数目盛を使用しない場合には、これ以降の処理においてスペクトル振幅の 絶対値を使用してもよい。
[0023] FFT部 104は、対数変換部 103から出力された対数目盛のスペクトル振幅に対し て、第 2の順方向周波数変換を施すことによってスペクトル振幅の周波数表現 (複素 係数 C )を取得し、取得した複素係数 Cを第 2スペクトル振幅算出部 105及び係数
A A
選択部 107に出力する。
[0024] 第 2スペクトル振幅算出部 105は、 FFT部 104から出力された複素係数 Cを用い
A
て、スペクトル振幅 Aのスペクトル振幅 Aを算出し、算出したスペクトル振幅 Aをピー
A A
クポイント位置特定部 106に出力する。なお、 FFT部 104及び第 2スペクトル振幅算 出部 105を一つの算出手段として機能させてもよい。
[0025] ピークポイント位置特定部 106は、第 2スペクトル振幅算出部 105から出力されたス ベクトル振幅 Aにおいて、 1番目に高いピーク力 N番目に高いピークまでを検索す
A
ると共に、 1〜N番目のピークの位置 Posをそれぞれ検索する。検索された 1〜?^番
N
目のピーク位置 Pos が係数選択部 107に出力される。
N
[0026] 係数選択部 107は、ピークポイント位置特定部 106から出力されたピーク位置 Pos
N
に基づいて、 FFT部 104から出力された複素係数 Cのうち N個を選択し、選択した
A
N個の複素係数 Cを量子化部 108に出力する。
[0027] 量子化部 108は、係数選択部 107から出力された複素係数 Cをスカラー量子化方 法又はベクター量子化方法によって量子化し、量子化係数 C"を出力する。
[0028] なお、量子化係数 C"およびピーク位置 Pos は後述する復号器側のスペクトル振幅
N
推定復号装置に送信され、復号器側において再構成される。
[0029] 図 2は、本発明の実施の形態 1に係るスペクトル振幅推定復号装置 150の構成を 示すブロック図である。このスペクトル振幅推定復号装置 150は、主として音声復号 装置に用いられる。この図において、逆量子化部 151は、図 1に示したスペクトル振 幅推定装置 100から送信された量子化係数 C'を逆量子化して係数を取得し、取得 した係数をスペクトル係数形成部 152に出力する。
[0030] スペクトル係数形成部 152は、逆量子化部 151から出力された係数を図 1に示した スペクトル振幅推定装置 100から送信されたピーク位置 Pos のそれぞれに配置し、
N
残りの位置には係数 0を配置する。これにより逆方向周波数変換に必要なスペクトル 係数 (複素係数)が形成される。なお、これらの係数のサンプル数は符号化器側の係 数のサンプル数と同じである。例えば、スペクトル振幅 Aの長さが 64サンプルで Nが
A
20の場合、係数は実数値、虚数値のいずれに対しても Pos によって指定された 20
N
箇所に配置され、残り 44箇所には係数 0が配置される。このようにして形成されたス ベクトル係数は IFFT (Inverse Fast Fourier Transform)部 153に出力される。
[0031] IFFT部 153は、スペクトル係数形成部 152から出力されたスペクトル係数に逆周 波数変換を施すことによって対数目盛でスペクトル振幅の推定値を再構成する。再 構成された対数目盛のスペクトル振幅推定値は逆対数変換部 154に出力される。
[0032] 逆対数変換部 154は、 IFFT部 153から出力されたスペクトル振幅推定値の逆対数 をとり、線形目盛でスペクトル振幅 A'を取得する。なお、前述したように、対数目盛へ の変換は必須ではないので、スペクトル振幅推定装置 100が対数変換部 103を備え ない場合、逆対数変換部 154も備えない。この場合、 IFFT部 153における逆周波数 変換の結果は、線形目盛におけるスペクトル振幅の推定値を再構成したものになる。
[0033] 図 3は、定常信号のスペクトルを示す図である。図 3Aは、駆動音源信号の定常部 分に対する時間領域信号の 1フレームを示す。図 3Bは、駆動音源信号を時間領域 から周波数領域に変換したスペクトル振幅を示す。定常信号に対して、スペクトル振 幅は図 3Bのグラフに示すように一定の周期性を示す。
[0034] スペクトル振幅を任意の信号として扱い、それに対して周波数変換を行うと、図 3C のグラフにピークで示されるように、変換スペクトルの振幅を計算するときにこの周期 性が示される。この特徴を利用してより少ない数の係数 (実数および虚数)をとるだけ で、図 3 (b)のグラフからスペクトル振幅を推定することができる。例えば、図 3Bのダラ フのポイント 31のピークを符号ィ匕することによってスペクトル振幅の周期性を獲得した ことになる。
[0035] 黒丸のピークポイントで示した位置に該当する縮小した係数の集合を図 3Cに示す
。少数の係数のみを用いて逆変換を行うことによって、図 3Dの点線で示すようなスぺ タトル振幅の推定値を得ることができる。
[0036] 効率をさらに向上させるため、ポイント 31などの主要なピーク位置およびその隣接 ポイントは、周期性または信号のピッチ周期から導き出すことができるので送信する 必要はない。
[0037] 図 4は、非定常信号のスペクトル示すものである。図 4Aは、駆動音源信号の非定 常部分に対する時間領域信号の 1フレームを示す。非定常信号についても、定常信 号と同様に、スペクトル振幅を推定することができる。
[0038] 図 4Bは、駆動音源信号を時間領域力 周波数領域に変換したスペクトル振幅を示 す。非定常信号の場合、スペクトル振幅は図 4Bに示すように周期性をまったく示さな い。また、信号の非定常部分に適用されるため、図 4Cに示すようにどの部分におい ても信号の集中は見られず、ポイントが分散している。
[0039] 一方、図 3Cのグラフでは、ポイント 31にピークが存在し、このポイントを符号化する ことによって図 3Bのグラフでスペクトル振幅の周期性を獲得したことになり、他のボイ ントを符号ィ匕することによってスペクトル振幅の精密度が向上する。したがって、処理 対象の信号長に比較してより少な!/、数の係数を用いて信号のスペクトル振幅を推定 することができる。
[0040] これに対し、通常、図 4Cのグラフに示すような黒丸のピークポイントである正しいポ イントを注意深く選択することによって、図 4Dの点線で示すようなスペクトル振幅の推 定値を得ることができる。
[0041] このように、特に、定常信号のように安定した構造の信号では、情報は通常、ある F FT変換係数で伝達される。この係数は、他の係数と比較して大きな値を持っており、 このような係数を選択して信号を表現することができる。したがって、より少ない数の 係数を用いて信号のスペクトル振幅を表現することができる。すなわち、より少ないビ ット数で係数を表現することになり、ビットレートを低減することができる。ちなみに、ス ベクトル振幅の表現に使用する係数の数が増加するに従ってスペクトル振幅をより高 精度に復元することができる。
[0042] 図 5は、本発明の実施の形態 1に係る音声符号化システム 200の構成を示すブロッ ク図である。ここでは、まず、符号化器側について説明する。
[0043] LPC分析フィルタ 201は、入力音声信号 Sをフィルタにかけ、 LPC係数および駆動 音源信号 eを得る。 LPC係数は復号器側の LPC合成フィルタ 210に送信され、駆動 音源信号 eは符号化器 202及び FFT部 203に出力される。
[0044] 符号化器 202は、図 1に示したスペクトル振幅推定装置の構成を有し、 LPC分析フ ィルタ 201から出力された駆動音源信号 eのスペクトル振幅を推定し、係数 C"および それぞれのピーク位置 Posを取得し、量子化係数 C"およびピーク位置 Posを復号
N N
器側の復号器 206に送信する。
[0045] FFT部 203は、 LPC分析フィルタ 201から出力された駆動音源信号 eを周波数領 域に変換し、複素スペクトル係数 (R , I ) スペクトル
e eを生成し、複素 係数を位相デー タ算出部 204に出力する。
[0046] 位相データ算出部 204は、 FFT部 203から出力された複素スペクトル係数を用い て、駆動音源信号 eの位相データ Θを算出し、算出した位相データ Θを位相量子化 部 205に出力する。
[0047] 位相量子化部 205は、位相データ算出部 204から出力された位相データ Θを量子 化し、量子化位相データ Φを復号器側の位相逆量子化部 207に送信する。
[0048] 次に、復号器側について説明する。
[0049] 復号器 206は、図 2に示したスペクトル振幅推定復号装置の構成を有し、符号化器 側の符号化器 202から送信された量子化係数 C'およびピーク位置 Posを用いて、
N
駆動音源信号 eのスペクトル振幅推定値 A"を取得し、取得したスペクトル振幅推定 値 A'を極矩変換部 208に出力する。
[0050] 位相逆量子化部 207は、符号化器側の位相量子化部 205から送信された量子化 位相データ Φを逆量子化し、位相データ Θ 'を取得し、極矩変換部 208に出力する。
[0051] 極矩変換部 208は、位相逆量子化部 207から出力された位相データ Θ 'を用いて
、復号器 206から出力されたスペクトル振幅推定値 A'を実数および虚数形式の複素 スペクトル係数 (R,, Γ )に変換し、 IFFT部 209に出力する。 [0052] IFFT部 209は、極矩変換部 208から出力された複素スペクトル係数を周波数領域 信号力 時間領域信号に変換し、推定駆動音源信号 を取得する。取得された推 定駆動音源信号 e "は LPC合成フィルタ 210に出力される。
[0053] LPC合成フィルタ 210は、 IFFT部 209から出力された推定駆動音源信号 e'と符 号化器側の LPC分析フィルタ 201から出力された LPC係数とを用いて推定入力信 号 S 'が合成される。
[0054] このように実施の形態 1によれば、符号化器側にお!ヽて、駆動音源信号のスぺタト ル振幅に FFT処理を施して FFT変換係数を求め、求めた FFT変換係数のスぺタト ル振幅のピークを上位 N個につ 、て位置を特定し、特定した位置に対応する FFT変 換係数を選択し、復号器側において、符号化器側によって選択された FFT変換係 数を、同じく符号化器側によって特定された位置に配置してスぺ外ル係数を形成し 、形成したスペクトル係数に IFFT処理を施すことによって、スペクトル振幅を復元す ることができるので、少な 、FFT変換係数を用いてスペクトル振幅を表現することが できる。したがって、 FFT変換係数を少ないビット数で表現することができるので、ビ ットレートを低減することができる。
[0055] (実施の形態 2)
実施の形態 1では、スペクトル振幅を推定する場合について説明したが、本発明の 実施の形態 2では、基準信号と基準信号の推定値との差 (残差信号)を符号化する 場合について説明する。残差信号は、非定常状態になる傾向があるランダム信号に 近いので、図 4に示したスペクトルと類似している。よって、実施の形態 1において説 明したスペクトル振幅推定方法を応用して残差信号を推定することができる。
[0056] 図 6は、本発明の実施の形態 2に係る残差信号推定装置 300の構成を示すブロッ ク図である。この残差信号推定装置 300は、主として音声符号化装置に用いられる。 この図において、 FFT部 301aは基準駆動音源信号 eを順方向周波数変換によって 周波数領域信号に変換し、第 1スぺ外ル振幅算出部 302aに出力する。
[0057] 第 1スペクトル振幅算出部 302aは、 FFT部 301aから出力された周波数領域にお ける基準駆動音源信号のスペクトル振幅 Aを算出し、算出したスペクトル振幅 Aを第 1対数変換部 303aに出力する。 [0058] 第 1対数変換部 303aは、第 1スペクトル振幅算出部 302aから出力されたスペクトル 振幅 Aを対数目盛に変換し、加算器 304に出力する。
[0059] FFT部 301bは FFT部 301aと、第 3スペクトル振幅算出部 302bは第 1スペクトル振 幅算出部 302aと、第 2対数変換部 303bは第 1対数変換部 303aとそれぞれ同様の 処理を推定駆動音源信号 に対して行う。
[0060] 加算器 304は、第 1対数変換部 303aから出力されたスペクトル振幅を基準値として 、第 2対数変換部 303bから出力された推定スペクトル振幅値との差スペクトル振幅 D (残差信号)を計算し、差スペクトル振幅 Dを FFT部 104に出力する。
[0061] 図 7は、本発明の実施の形態 2に係る推定残差信号推定復号装置 350の構成を示 すブロック図である。この推定残差信号推定復号装置 350は、主として音声復号装 置に用いられる。この図において、 IFFT部 153は、スペクトル係数形成部 152から出 力されたスペクトル係数に逆周波数変換を施すことによって、対数目盛における差ス ベクトル振幅の推定値 D'を再構成する。再構成された差スペクトル振幅の推定値 D' は加算器 354に出力される。
[0062] FFT部 351は、推定駆動音源信号 を順方向周波数変換によって変換係数 C を
e 形成し、スペクトル振幅算出部 352に出力する。
[0063] スペクトル振幅算出部 352は、 FFT部 351から出力された変換係数 C .を用いて、 e
推定駆動音源信号のスペクトル振幅 A、すなわち、推定スペクトル振幅 A"を算出し、 算出した推定スペクトル振幅 A'を対数変換部 353に出力する。
[0064] 対数変換部 353は、スペクトル振幅算出部 352から出力された推定スペクトル振幅
A'を対数目盛に変換し、加算器 354に出力する。
[0065] 加算器 354は、 IFFT部 153から出力された差スペクトル振幅の推定値 D'と対数変 換部 353から出力された対数目盛のスペクトル振幅の推定値とを加算し、スペクトル 振幅の強調された推定値を得る。加算器 354はスペクトル振幅の強調された推定値 を逆対数変換部 154に出力する。
[0066] 逆対数変換部 154は、加算器 354から出力されたスペクトル振幅の強調された推 定値の逆対数をとり、スペクトル振幅を線形目盛のベクトル振幅 ΑΊこ変換する。
[0067] なお、図 6において差スペクトル振幅 Dが対数目盛の場合、図 7において、スぺタト ル振幅算出部 352から出力されるスペクトル振幅の推定値 A'を IFFT部 153で求め た差スペクトル振幅の推定値 D'に加算する前に対数変換部 353で対数目盛に変換 し、対数目盛でスペクトル振幅の強調された推定値を得るようにしなければならな ヽ。 ところが、図 6において差スペクトル振幅 Dに対数目盛を使用しない場合、対数変換 部 353および逆対数変換部 154を使用しないようにする。したがって、 IFFT部 153 によって再構成された差スペクトル振幅 D'をスペクトル振幅算出部 352から出力され たスペクトル振幅推定値 ΑΊこ直接加算してスペクトル振幅の強調推定値 A〜を得る。
[0068] 本実施の形態では、差スペクトル振幅信号 Dを全フレームに適用できる力 全フレ ームに適用する代わりに、差スペクトル振幅信号 Dの各フレームを Mサブフレームに 分割し、各サブフレームに差スペクトル振幅信号 Dを適用する。各サブフレームのサ ィズは、等分してもよいし、非線形的に分割してもよい。
[0069] ここでは、図 8に示すように、低い周波数領域が小さなサブフレームを有し、高い周 波数領域が大きなサブフレームを有するように 1フレームを 4つのサブフレームに非 線形的に分割した場合を示して 、る。このように分割した各サブフレームに差スぺタト ル振幅信号 Dを適用する。
[0070] サブフレームを使用する利点の一つは異なる数の係数を、その重要性に基づいて 異なるサブフレームに割り当てることができる点である。例えば、低い周波数領域に 該当する低サブフレームは重要であるとみなされるので、高い周波数領域である高 サブフレームと比較してこの領域により多くの係数を割り当てることができる。なお、図 8では、低サブフレームよりも高サブフレームにより多くの係数を割り当てた場合を示 している。
[0071] 図 9は、本発明の実施の形態 2に係るステレオ音声符号ィ匕システム 400の構成を示 すブロック図である。このシステムの基本概念は、基準モノラルチャネルを符号ィ匕し、 モノラルチャネル力も左チャネルを予測または推定し、そして、右チャネルをモノラル および左チャネルカゝら導き出すものである。ここでは、まず、符号化器側について説 明する。
[0072] 図 9において、 LPC分析フィルタ 401は、モノラルチャネル信号 Mをフィルタにかけ 、モノラル駆動音源信号 e 、モノラルチャネル LPC係数および駆動音源パラメータを 求め、モノラル駆動音源信号 e を共分散推定部 403に出力し、モノラルチャネル LP
M
C係数を復号器側の LPC復号器 405に送信し、駆動音源パラメータを復号器側の駆 動音源信号発生器 406に送信する。なお、モノラル駆動音源信号 e は、左駆動音
M
源信号の予測のためのターゲット信号となる。
[0073] LPC分析フィルタ 402は左チャネル信号 Lをフィルタにかけ、左駆動音源信号 eお
し よび左チャネル LPC係数を求め、左駆動音源信号 eを共分散推定部 403および符
号化器 404に出力し、左チャネル LPC係数を復号器側の LPC復号器 413に送信す る。なお、左駆動音源信号 eは、左チャネル駆動音源信号の予測のための基準信号
として機能する。
[0074] 共分散推定部 403は、 LPC分析フィルタ 401から出力されたモノラル駆動音源信 号 e および LPC分析フィルタ 402から出力された左駆動音源信号 eを用いて、以下
M L
の式(1)を最小化することによって左駆動音源信号を推定し、推定した左駆動音源 信号 を符号化器 404に出力する。
[0075] [数 1]
Figure imgf000014_0001
ただし、 Pはフィルタ長、 Lは処理する信号長、 βはフィルタ係数である。フィルタ係 数 ISは復号器側の信号推定部 408に送信されて左駆動音源信号の推定に使用さ れる。
[0076] 符号化器 404は、図 6に示した残差信号推定装置の構成を有し、 LPC分析フィル タ 402から出力された基準駆動音源信号 eおよび共分散推定部 403から出力された
L
推定駆動音源信号 を用いて、変換係数 C'およびピーク位置 Posを求め、求め
L N
た変換係数 C'およびピーク位置 Posを復号器側の復号器 409に送信する。
N
[0077] 次に、復号器側について説明する。
[0078] LPC復号器 405は、符号化器側の LPC分析フィルタ 401から送信されたモノラル チャネル LPC係数を復号し、復号したモノラルチャネル LPC係数を LPC合成フィル タ 407に出力する。
[0079] 駆動音源信号発生器 406は、符号化器側の LPC分析フィルタ 401から送信された 駆動音源パラメータを用いて、モノラル駆動音源信号 e を発生し、 LPC合成フィル タ 407および信号推定部 408に出力する。
[0080] LPC合成フィルタ 407は、 LPC復号器 405から出力されたモノラルチャネル LPC 係数と駆動音源信号発生器 406から出力されたモノラル駆動音源信号 e とを用い
M, て、出力モノラル音声 M'を合成し、右チャネル導出部 415に出力する。
[0081] 信号推定部 408は、駆動音源信号発生器 406から出力されたモノラル駆動音源信 号 e を符号化器側の共分散推定部 403から送信されたフィルタ係数 13でフィルタに
M,
カゝけることにより、左駆動音源信号を推定し、推定左駆動音源信号 e'を復号器 409
および位相算出部 410に出力する。
[0082] 復号器 409は、図 7に示した推定残差信号推定復号装置の構成を有し、信号推定 部 408から出力された推定左駆動音原信号 、符号化器側の符号化器 404から送
信された変換係数 C'及びピーク位置 Posを用いて、左駆動音源信号の強調スぺク
N
トル振幅 A〜を取得し、取得した強調スペクトル振幅 A〜を極矩変換部 411に出力す
し し
る。
[0083] 位相算出部 410は、信号推定部 408から出力された推定左駆動音源信号 e'から
し 位相データ Φを算出し、算出した位相データ Φを極矩変換部 411に出力する。こ
し し
の位相データ Φ は振幅 と共にスペクトル強調駆動音源信号の極形式を形成す
し し
る。
[0084] 極矩変換部 411は、位相算出部 410から出力された位相データ Φを用いて、復号
器 409から出力された強調スペクトル振幅 A〜を極形式から矩形形式に変換し、 IFF
T部 412に出力する。
[0085] IFFT部 412は、極矩変換部 411から出力された矩形形式の強調スペクトル振幅を 逆方向周波数変換によって周波数領域信号力 時間領域信号に変換し、スペクトル 強調駆動音源信号 e'を形成する。スペクトル強調駆動音源 e'は LPC合成フィルタ 4
し し
14に出力される。
[0086] 0^復号器413は、符号化器側の LPC分析フィルタ 402から送信された左チヤネ ル LPC係数を復号し、復号した左チャネル LPC係数を LPC合成フィルタ 414に出力 する。 [0087] LPC合成フィルタ 414は、 IFFT部 412から出力されたスペクトル強調駆動音源信 号 e'および LPC復号器 413から出力された左チャネル LPC係数を用いて左チヤネ し
ル信号 L'を合成し、右チャネル導出部 415に出力する。
[0088] 右チャネル導出部 415は、モノラル信号 Mが符号化器側で M= 1Z2 (L+R)によ つて導き出されると仮定した場合、 LPC合成フィルタ 407から出力された出力モノラ ル音声 M'と、 LPC合成フィルタ 414から出力された左チャネル信号 L'との関係から 右チャネル信号 R,を導き出せる。すなわち、 R' = 2M,—L'の関係式によって右チ ャネル信号 R'を求めることができる。
[0089] このように実施の形態 2によれば、符号化器側にお!ヽて、基準駆動音源信号のスぺ タトル振幅と、推定駆動音源信号のスペクトル振幅の残差信号を符号化し、復号器 側において、残差信号を復元し、復元した残差信号をスペクトル振幅推定値に加算 することにより、スぺ外ル振幅推定値を強調し、符号化前の基準駆動音源信号のス ベクトル振幅に近づけることができる。
[0090] 以上、実施の形態について説明した。
[0091] 上記各実施の形態では、本発明をノヽードウエアで構成する場合を例にとって説明 したが、本発明はソフトウェアで実現することも可能である。
[0092] また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路 である LSIとして実現される。これらは個別に 1チップ化されてもよいし、一部または全 てを含むように 1チップィ匕されてもよい。ここでは、 LSIとした力 集積度の違いにより、 IC、システム LSI、スーパー LSI、ウルトラ LSIと呼称されることもある。
[0093] また、集積回路化の手法は LSIに限るものではなぐ専用回路または汎用プロセッ サで実現してもよい。 LSI製造後に、プログラムすることが可能な FPGA (Field Progra mmable Gate Array)や、 LSI内部の回路セルの接続や設定を再構成可能なリコンフ ィギユラブル'プロセッサーを利用してもよい。
[0094] さらには、半導体技術の進歩または派生する別技術により LSIに置き換わる集積回 路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行って もよい。バイオ技術の適用等が可能性としてありえる。
[0095] 2006年 1月 31曰出願の欄 2006— 023756の曰本出願に含まれる明細書、図 面および要約書の開示内容は、すべて本願に援用される。
産業上の利用可能性
本発明にかかる音声符号化装置、音声復号装置、音声符号化システム、音声符号 化方法及び音声復号方法は、スペクトル波形をモデルィ匕し、スペクトル波形を正確に 復元することができ、携帯電話やテレビ会議用機器などの通信機器に適用できる。

Claims

請求の範囲
[1] 第 1入力信号に周波数変換を施し、周波数領域信号を形成する変換手段と、 前記周波数領域信号の第 1スペクトル振幅を算出する第 1算出手段と、 前記第 1スぺ外ル振幅に周波数変換を施し、第 2スぺ外ル振幅を算出する第 2算 出手段と、
前記第 2スペクトル振幅の上位複数のピークのピーク位置を特定する特定手段と、 特定された前記ピーク位置に該当する前記第 2スペクトル振幅の変換係数を選択 する選択手段と、
選択された前記変換係数を量子化する量子化手段と、
を具備する音声符号化装置。
[2] 前記第 1スペクトル振幅は、対数値である請求項 1に記載の音声符号化装置。
[3] 前記第 1スペクトル振幅は、絶対値である請求項 1に記載の音声符号化装置。
[4] 前記量子化手段は、スカラー量子化又はベクター量子化によって量子化する請求 項 1に記載の音声符号化装置。
[5] 入力信号に 2回の周波数変換を施して得られた変換係数のうち、上位複数の量子 ィ匕された変換係数を取得し、取得した変換係数を逆量子化する逆量子化手段と、 前記変換係数を周波数軸上に配置し、スペクトル係数を形成するスペクトル係数形 成手段と、
前記スペクトル係数に逆周波数変換を施してスペクトル振幅の推定値を再構成し、 前記スペクトル振幅推定値の線形値を取得する逆変換手段と、
を具備する音声復号装置。
[6] 前記スペクトル係数形成手段は、入力信号に 2回の周波数変換を施して得られた 変換係数カゝら選択された上位複数の変換係数の位置に前記変換係数を配置し、残 りの位置に 0を配置する請求項 5に記載の音声復号装置。
[7] 入力信号に周波数変換を施し、周波数領域信号を形成する変換手段と、
前記周波数領域信号の第 1スペクトル振幅を算出する第 1算出手段と、 前記第 1スぺ外ル振幅に周波数変換を施し、第 2スぺ外ル振幅を算出する第 2算 出手段と、 前記第 2スペクトル振幅の上位複数のピークのピーク位置を特定する特定手段と、 特定された前記ピーク位置に該当する前記第 2スペクトル振幅の変換係数を選択 する選択手段と、
選択された前記変換係数を量子化する量子化手段と、
を有する音声符号化装置と、
量子化された前記変換係数を逆量子化する逆量子化手段と、
前記変換係数を周波数軸上に配置し、スペクトル係数を形成するスペクトル係数形 成手段と、
前記スペクトル係数に逆周波数変換を施してスペクトル振幅の推定値を再構成し、 前記スペクトル振幅推定値の線形値を取得する逆変換手段と、
を具備する音声復号装置と、
を具備する音声符号化システム。
[8] 入力信号に周波数変換を施し、周波数領域信号を形成する変換工程と、
前記周波数領域信号の第 1スぺ外ル振幅を算出する第 1算出工程と、 前記第 1スぺ外ル振幅に周波数変換を施し、第 2スぺ外ル振幅を算出する第 2算 出工程と、
前記第 2スペクトル振幅の上位複数のピークのピーク位置を特定する特定工程と、 特定された前記ピーク位置に該当する前記第 2スペクトル振幅の変換係数を選択 する選択工程と、
選択された前記変換係数を量子化する量子化工程と、
を具備する音声符号化方法。
[9] 入力信号に 2回の周波数変換を施して得られた変換係数のうち、上位複数の量子 ィ匕された変換係数を取得し、取得した変換係数を逆量子化する逆量子化工程と、 前記変換係数を周波数軸上に配置し、スペクトル係数を形成するスペクトル係数形 成工程と、
前記スペクトル係数に逆周波数変換を施してスペクトル振幅の推定値を再構成し、 前記スペクトル振幅推定値の線形値を取得する逆変換工程と、
を具備する音声復号方法。
PCT/JP2007/051503 2006-01-31 2007-01-30 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法 Ceased WO2007088853A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007556867A JPWO2007088853A1 (ja) 2006-01-31 2007-01-30 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法
US12/162,645 US20090018824A1 (en) 2006-01-31 2007-01-30 Audio encoding device, audio decoding device, audio encoding system, audio encoding method, and audio decoding method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006-023756 2006-01-31
JP2006023756 2006-01-31

Publications (1)

Publication Number Publication Date
WO2007088853A1 true WO2007088853A1 (ja) 2007-08-09

Family

ID=38327425

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/051503 Ceased WO2007088853A1 (ja) 2006-01-31 2007-01-30 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法

Country Status (3)

Country Link
US (1) US20090018824A1 (ja)
JP (1) JPWO2007088853A1 (ja)
WO (1) WO2007088853A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009057329A1 (ja) * 2007-11-01 2009-05-07 Panasonic Corporation 符号化装置、復号装置およびこれらの方法
WO2010140306A1 (ja) * 2009-06-01 2010-12-09 三菱電機株式会社 信号処理装置
CN116721668A (zh) * 2017-03-09 2023-09-08 高通股份有限公司 编码音频数据的装置和方法

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1852689A1 (en) * 2005-01-26 2007-11-07 Matsushita Electric Industrial Co., Ltd. Voice encoding device, and voice encoding method
JP4999846B2 (ja) * 2006-08-04 2012-08-15 パナソニック株式会社 ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
JPWO2008072671A1 (ja) * 2006-12-13 2010-04-02 パナソニック株式会社 音声復号化装置およびパワ調整方法
EP2116997A4 (en) * 2007-03-02 2011-11-23 Panasonic Corp AUDIO-DECODING DEVICE AND AUDIO-DECODING METHOD
JP5377287B2 (ja) * 2007-03-02 2013-12-25 パナソニック株式会社 ポストフィルタ、復号装置およびポストフィルタ処理方法
WO2008108080A1 (ja) * 2007-03-02 2008-09-12 Panasonic Corporation 音声符号化装置及び音声復号装置
JPWO2008132850A1 (ja) * 2007-04-25 2010-07-22 パナソニック株式会社 ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
EP2015293A1 (en) * 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
US8498874B2 (en) * 2009-09-11 2013-07-30 Sling Media Pvt Ltd Audio signal encoding employing interchannel and temporal redundancy reduction
BR112013011312A2 (pt) * 2010-11-10 2019-09-24 Koninl Philips Electronics Nv método para estimar um padrão em um sinal (s) tendo um componente periódico, semiperiódico ou virtualmente periódico, dispositivo para estimar um padrão em um sinal (s) tendo um componente periódico, semiperiódico ou virtualmente periódico e programa de computador
PT2951814T (pt) * 2013-01-29 2017-07-25 Fraunhofer Ges Forschung Ênfase de baixa frequência para codificação com base em lpc em domínio de frequência
EP2980798A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Harmonicity-dependent controlling of a harmonic filter tool
KR102189730B1 (ko) * 2015-09-03 2020-12-14 주식회사 쏠리드 디지털 데이터 압축 및 복원 장치
CN108288467B (zh) * 2017-06-07 2020-07-14 腾讯科技(深圳)有限公司 一种语音识别方法、装置及语音识别引擎

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01205200A (ja) * 1988-02-12 1989-08-17 Nippon Telegr & Teleph Corp <Ntt> 音声符号化方式
JPH03245200A (ja) * 1990-02-23 1991-10-31 Hitachi Ltd 音声情報圧縮方法
JPH0777979A (ja) * 1993-06-30 1995-03-20 Casio Comput Co Ltd 音声制御音響変調装置
JPH10228298A (ja) * 1997-02-13 1998-08-25 Taito Corp 音声信号符号化方法
JP2001177416A (ja) * 1999-12-17 2001-06-29 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 音声符号化パラメータの取得方法および装置
JP2004070240A (ja) * 2002-08-09 2004-03-04 Yamaha Corp オーディオ信号の時間軸圧伸装置、方法及びプログラム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL177950C (nl) * 1978-12-14 1986-07-16 Philips Nv Spraakanalysesysteem voor het bepalen van de toonhoogte in menselijke spraak.
NL8400552A (nl) * 1984-02-22 1985-09-16 Philips Nv Systeem voor het analyseren van menselijke spraak.
EP0243479A4 (en) * 1985-10-30 1989-12-13 Central Inst Deaf LANGUAGE PROCESSING ARRANGEMENT AND METHOD.
US6876953B1 (en) * 2000-04-20 2005-04-05 The United States Of America As Represented By The Secretary Of The Navy Narrowband signal processor
US7184955B2 (en) * 2002-03-25 2007-02-27 Hewlett-Packard Development Company, L.P. System and method for indexing videos based on speaker distinction
BRPI0304540B1 (pt) * 2002-04-22 2017-12-12 Koninklijke Philips N. V Methods for coding an audio signal, and to decode an coded audio sign, encoder to codify an audio signal, codified audio sign, storage media, and, decoder to decode a coded audio sign
DE60311794T2 (de) * 2002-04-22 2007-10-31 Koninklijke Philips Electronics N.V. Signalsynthese
DE60306512T2 (de) * 2002-04-22 2007-06-21 Koninklijke Philips Electronics N.V. Parametrische beschreibung von mehrkanal-audio
JP2006503319A (ja) * 2002-10-14 2006-01-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 信号フィルタリング
US7272551B2 (en) * 2003-02-24 2007-09-18 International Business Machines Corporation Computational effectiveness enhancement of frequency domain pitch estimators
US7333930B2 (en) * 2003-03-14 2008-02-19 Agere Systems Inc. Tonal analysis for perceptual audio coding using a compressed spectral representation
US7451082B2 (en) * 2003-08-27 2008-11-11 Texas Instruments Incorporated Noise-resistant utterance detector
WO2006022308A1 (ja) * 2004-08-26 2006-03-02 Matsushita Electric Industrial Co., Ltd. マルチチャネル信号符号化装置およびマルチチャネル信号復号装置
CN101010985A (zh) * 2004-08-31 2007-08-01 松下电器产业株式会社 立体声信号生成装置及立体声信号生成方法
WO2006121101A1 (ja) * 2005-05-13 2006-11-16 Matsushita Electric Industrial Co., Ltd. 音声符号化装置およびスペクトル変形方法
US20070011001A1 (en) * 2005-07-11 2007-01-11 Samsung Electronics Co., Ltd. Apparatus for predicting the spectral information of voice signals and a method therefor
KR100851970B1 (ko) * 2005-07-15 2008-08-12 삼성전자주식회사 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치
US7546240B2 (en) * 2005-07-15 2009-06-09 Microsoft Corporation Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01205200A (ja) * 1988-02-12 1989-08-17 Nippon Telegr & Teleph Corp <Ntt> 音声符号化方式
JPH03245200A (ja) * 1990-02-23 1991-10-31 Hitachi Ltd 音声情報圧縮方法
JPH0777979A (ja) * 1993-06-30 1995-03-20 Casio Comput Co Ltd 音声制御音響変調装置
JPH10228298A (ja) * 1997-02-13 1998-08-25 Taito Corp 音声信号符号化方法
JP2001177416A (ja) * 1999-12-17 2001-06-29 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 音声符号化パラメータの取得方法および装置
JP2004070240A (ja) * 2002-08-09 2004-03-04 Yamaha Corp オーディオ信号の時間軸圧伸装置、方法及びプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009057329A1 (ja) * 2007-11-01 2009-05-07 Panasonic Corporation 符号化装置、復号装置およびこれらの方法
US8352249B2 (en) 2007-11-01 2013-01-08 Panasonic Corporation Encoding device, decoding device, and method thereof
JP5404412B2 (ja) * 2007-11-01 2014-01-29 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
WO2010140306A1 (ja) * 2009-06-01 2010-12-09 三菱電機株式会社 信号処理装置
JPWO2010140306A1 (ja) * 2009-06-01 2012-11-15 三菱電機株式会社 信号処理装置
US8918325B2 (en) 2009-06-01 2014-12-23 Mitsubishi Electric Corporation Signal processing device for processing stereo signals
CN116721668A (zh) * 2017-03-09 2023-09-08 高通股份有限公司 编码音频数据的装置和方法

Also Published As

Publication number Publication date
US20090018824A1 (en) 2009-01-15
JPWO2007088853A1 (ja) 2009-06-25

Similar Documents

Publication Publication Date Title
WO2007088853A1 (ja) 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法
EP1798724B1 (en) Encoder, decoder, encoding method, and decoding method
EP2209114B1 (en) Speech coding/decoding apparatus/method
RU2462770C2 (ru) Устройство кодирования и способ кодирования
CN101548319B (zh) 后置滤波器以及滤波方法
US8386267B2 (en) Stereo signal encoding device, stereo signal decoding device and methods for them
CN101611442A (zh) 编码装置、解码装置以及其方法
RU2463674C2 (ru) Кодирующее устройство и способ кодирования
JPH08123495A (ja) 広帯域音声復元装置
WO2011086924A1 (ja) 音声符号化装置および音声符号化方法
JPWO2010140350A1 (ja) ダウンミックス装置、符号化装置、及びこれらの方法
CN102792369B (zh) 语音处理装置、语音处理方法
US20070253481A1 (en) Scalable Encoder, Scalable Decoder,and Scalable Encoding Method
JP4982374B2 (ja) 音声符号化装置およびスペクトル変形方法
US20110035214A1 (en) Encoding device and encoding method
EP1801783B1 (en) Scalable encoding device, scalable decoding device, and method thereof
KR20070085532A (ko) 스테레오 부호화 장치, 스테레오 복호 장치 및 그 방법
EP1801782A1 (en) Scalable encoding apparatus and scalable encoding method
JP2004302259A (ja) 音響信号の階層符号化方法および階層復号化方法
CN104380377A (zh) 用于可缩放低复杂度编码/解码的方法和装置
JPWO2007037359A1 (ja) 音声符号化装置および音声符号化方法
JP3266920B2 (ja) 音声符号化装置及び音声復号化装置並びに音声符号化復号化装置
JP2006262292A (ja) 符号化装置、復号装置、符号化方法及び復号方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2007556867

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 12162645

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 07707721

Country of ref document: EP

Kind code of ref document: A1