[go: up one dir, main page]

WO1996019798A1 - Sound encoding system - Google Patents

Sound encoding system Download PDF

Info

Publication number
WO1996019798A1
WO1996019798A1 PCT/JP1995/002607 JP9502607W WO9619798A1 WO 1996019798 A1 WO1996019798 A1 WO 1996019798A1 JP 9502607 W JP9502607 W JP 9502607W WO 9619798 A1 WO9619798 A1 WO 9619798A1
Authority
WO
WIPO (PCT)
Prior art keywords
short
audio signal
term prediction
parameters
codebooks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP1995/002607
Other languages
English (en)
French (fr)
Inventor
Masayuki Nishiguchi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to US08/676,226 priority Critical patent/US5950155A/en
Priority to AT95940473T priority patent/ATE233008T1/de
Priority to EP95940473A priority patent/EP0751494B1/en
Priority to BR9506841A priority patent/BR9506841A/pt
Priority to AU41901/96A priority patent/AU703046B2/en
Priority to KR1019960704546A priority patent/KR970701410A/ko
Application filed by Sony Corp filed Critical Sony Corp
Priority to PL95316008A priority patent/PL316008A1/xx
Priority to DE69529672T priority patent/DE69529672T2/de
Publication of WO1996019798A1 publication Critical patent/WO1996019798A1/ja
Priority to MXPA/A/1996/003416A priority patent/MXPA96003416A/xx
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Definitions

  • the present invention relates to a speech encoding method for encoding a parameter or a short-term prediction residual indicating a short-term prediction coefficient of an input speech signal by vector quantization or matrix quantization.
  • Various encoding methods are known that perform signal compression using the statistical properties of audio signals (including audio signals and acoustic signals) in the time domain and frequency domain and the characteristics of human hearing. I have. This coding method is roughly classified into coding in the time domain, coding in the frequency domain, and analysis synthesis coding.
  • Examples of high-efficiency coding of audio signals and the like include multiband excitation (hereinafter referred to as MBE) coding, single band excitation (Single band Excitatioiu and hereinafter referred to as SBE), coding, and harmonic ( Harmonic) Coding, Sub-band Coding (hereinafter referred to as SBC), Linear Predictive Coding (hereinafter referred to as LPC) :), Discrete Cosine Transform (DCT), Modified In DCT (MD CT), Fast Fourier Transform (FFT), etc., the spectrum amplitude and its parameters (LSP parameters)
  • MBE multiband excitation
  • SBE single band excitation
  • SBC Single band excitation
  • LPC Linear Predictive Coding
  • DCT Discrete Cosine Transform
  • MD CT Modified In DCT
  • FFT Fast Fourier Transform
  • LSP parameters the spectrum amplitude and its parameters
  • the time axis data, the frequency axis data, the filter coefficient data, etc. which are given at the time of encoding, are not individually quantized, but a plurality of data are grouped into a vector.
  • vector quantization and matrix quantization are performed using the LPC residual (residual) as a direct time waveform.
  • LPC residual residual
  • vector quantization and matrix quantification are also used for quantization of the spectrum envelope and the like in the above-mentioned MBE coding.
  • the present invention has been made in view of such circumstances, and an object of the present invention is to provide a speech encoding method that can obtain good quantization characteristics even with a small number of bits. Disclosure of the invention
  • the speech encoding method according to the present invention is characterized in that one or more combinations of a plurality of characteristic parameters of a speech signal are set as a reference parameter, and a parameter indicating a short-term predicted value with respect to the reference parameter is set.
  • First and second codebooks are created by sorting. Then, a short-term prediction value is generated based on the input audio signal, and one of the first and second codebooks is selected for a reference parameter of the input audio signal, and the selected codebook is referred to.
  • the input speech signal is coded by quantizing the short-term prediction value.
  • the short-term forecast value is a short-term forecast coefficient or a short-term forecast error.
  • the plurality of characteristic parameters are the pitch value of the audio signal, the bit strength, the frame power, the voiced and unvoiced sound discrimination flag, and the slope of the signal spectrum.
  • the quantization is vector quantization or matrix quantization.
  • the reference parameter is the pitch value of the audio signal, and one of the first and second codebooks is selected according to the relationship between the pitch value of the input audio signal and the magnitude of the predetermined pitch value.
  • FIG. 1 is a block diagram showing a schematic configuration of a speech signal encoding device as a specific example of a device to which the speech encoding method according to the present invention is applied.
  • Figure 2 shows an example of a smoother that can be used for the bit detection circuit in Figure 1.
  • FIG. 1 is a block diagram showing a schematic configuration of a speech signal encoding device as a specific example of a device to which the speech encoding method according to the present invention is applied.
  • Figure 2 shows an example of a smoother that can be used for the bit detection circuit in Figure 1.
  • FIG. 1 is a block diagram showing a schematic configuration of a speech signal encoding device as a specific example of a device to which the speech encoding method according to the present invention is applied.
  • Figure 2 shows an example of a smoother that can be used for the bit detection circuit in Figure 1.
  • FIG. 1 is a block diagram showing a schematic configuration of a speech signal encoding device as a specific example of a device to which the speech
  • Figure 3 shows the codebook used for vector quantization.
  • FIG. 4 is a block diagram for explaining a (training) method.
  • BEST MODE FOR CARRYING OUT THE INVENTION Preferred embodiments according to the present invention will be described below.
  • FIG. 1 is a block diagram showing a schematic configuration of a speech signal encoding device to which a speech encoding method according to the present invention is applied.
  • the audio signal supplied to the input terminal 11 is composed of a linear predictive coding (hereinafter, referred to as LPC) analysis circuit 12, an inverse filtering circuit 21 and an auditory circuit 21. It is supplied to the weighted file calculation circuit 23.
  • LPC linear predictive coding
  • the LPC analysis circuit 12 applies a Hamming window to the input signal waveform with a length of about 256 samples as one block, and applies a linear prediction coefficient (Linear Predictor Coeffic ients) and ask for so-called Ryuhi parame overnight.
  • One frame period as a unit of data output includes, for example, 160 sample. In this case, if the sampling frequency fs is e.g. 8 k Hz, 1 frame period is 2 0 m sec c
  • the parameters from the LPC analysis circuit 12 are supplied to the LSP conversion circuit 13 and are converted into parameters of a line spectrum pair (hereinafter referred to as LSP). That is, the parameters obtained as the direct type filter coefficients are converted into, for example, 10 pairs, ie, five pairs of LSP parameters. This conversion is performed using, for example, the Newton-Raphson method. Convert to this LSP parameter The reason is that the LSP parameters have better interpolation characteristics than the hi-parameters.
  • the LSP parameters from the LSP conversion circuit 13 are vector-quantized by the LSP vector quantizer 14.
  • the vector quantization may be performed after taking the difference between the frames.
  • matrix quantization may be performed on a plurality of frames at once. In this quantization, 20 msec is defined as one frame, and the LSP parameters calculated every 20 msec are vector-quantized.
  • a switching code 16 is used by switching between a male voice codebook 15M and a female voice codebook 15F, which will be described later, according to the pitch. ing.
  • the quantized output from the LSP vector quantizer 14, that is, the index of LSP vector quantization is extracted to the outside, and the quantized LSP vector is supplied to the LSP conversion circuit 17.
  • the conversion circuit 17 converts the coefficient into a parameter, which is a coefficient of the direct type filter. Based on the output from the LSP-H conversion circuit 17, the filter coefficient of the perceptually weighted synthesis filter 31 in code excitation linear prediction (CELP) coding is calculated.
  • CELP code excitation linear prediction
  • the output from a so-called dynamic codebook (also called a pitch codebook or adaptive codebook) 32 is the gain g.
  • a so-called dynamic codebook also called a pitch codebook or adaptive codebook
  • a coefficient multiplier 33 for multiplying the gain gi by an output from a so-called stochastic codebook (also called a noise codebook or a stochastic codebook) 35. It is sent to the adder 34 via the coefficient multiplier 36 to be multiplied.
  • the signal is supplied to the auditory weighted synthetic filter 31 as a signal.
  • the dynamic codebook 32 stores past excitation signals. This is read out at the pitch cycle and each gain g. Is multiplied by a signal from the stock code book 35 and a signal obtained by multiplying each signal by each gain in the adder 34, and the combined output is used to excite the synthesis filter 31 with auditory weight.
  • the addition output from the adder 34 is fed back to the dynamic codebook 32 to form a kind of IR filter.
  • the stochastic codebook 35 is a switch 35S for switching between one of a male codebook 35M and a female codebook 35F. It is configured to be switched and selected.
  • Each of the coefficient multipliers 33 and 36 generates each gain g according to the output from the gain code book 37. , G! Is controlled.
  • the output from the synthetic filter 31 with an auditory weight is supplied to the adder 38 as a subtraction signal.
  • the output signal from the adder 38 is supplied to a waveform distortion (Euclidean distance) minimizing circuit 39, and based on the output from the waveform distortion minimizing circuit 39, the output from the adder 38, That is, reading from each of the codebooks 32, 35, and 37 is controlled so as to minimize the weighted waveform distortion.
  • the input audio signal from the input terminal 11 is subjected to reverse fill processing by a parameter from the LPC analysis circuit 12, and is supplied to the pitch detection circuit 22. Pitch detection is performed. In accordance with the pitch detection result from the pitch detection circuit 22, the switching switch 16 and the switching switch 35 S are controlled to be switched, and the above-mentioned male voice codebook 35 M and female voice codebook are controlled. 3 5 F Exchange selection is performed.
  • an auditory weighting filter is calculated using the output from the LPC analyzing circuit 12 for the input audio signal from the input terminal 11 and the auditory weighting is performed.
  • the signal is provided to summer 24.
  • the output from the zero input response circuit 25 is supplied to the adder 24 as a subtraction signal.
  • the zero-input response circuit 25 combines the response of the previous frame with a weighted combining filter and outputs the combined signal. By subtracting this output from the perceptually weighted signal, the perceptually weighted combining filter is used. This is to cancel the fill response of the previous frame left in the evening 31 and extract the signal required as a new input to the decoder.
  • the added output from the adder 24 is supplied to the adder 38, and the output from the perceptually weighted synthesis filter 31 is subtracted from the added output.
  • the input signal from the input terminal 11 is x (n)
  • the LPC coefficient, i.e., the parameter, is i
  • the prediction residual is res (n).
  • x (n) the input signal from the input terminal 11
  • the LPC coefficient, i.e., the parameter, is i
  • the prediction residual is res (n).
  • x (n) the input signal from the input terminal 11
  • the LPC coefficient, i is i
  • the prediction residual is res (n).
  • . i is l ⁇ i ⁇ P, where P is the analysis order.
  • the inverse filter circuit 21 for the input signal x (n), the inverse filter circuit 21
  • the prediction residual res (n) is calculated, for example, in the range of 0 ⁇ n ⁇ N-1.
  • the prediction residual res (n) supplied from the inverse filter circuit 21 is passed through a low-pass filter (hereinafter referred to as LPF) to obtain resl (n).
  • LPF is usually when sampling Nguku-locking frequency fs is 8 kHz, the cutoff frequency f c is used of about lk Hz.
  • the autocorrelation function ⁇ res i (i) of resl (n) is calculated based on the equation (2).
  • each of the pitch lag threshold P (k) for distinguishing between male and female voices and P th pitch strength to determine the reliability of the pitch Pl (k) ⁇ beauty frame power R 0 (k)
  • the thresholds are P lth and R.
  • the first codebook for example, the male codebook 15M use
  • This third codebook may be different from the male codebook 15 M and female codebook 15 F described above, but for example, male codebook 15 M, female code Either one of Codebook 15 F may be used.
  • P l (k)> P lth 'and R 0 (k)> R oth that is, each pitch lag P (k) of a frame with a high bit-reliability in a voiced sound interval is saved for the past n frames, and the average value of these n frames of P (k), to determine the average value with a predetermined threshold value P th Rico - may be switched to codebook.
  • a pitch lag P (k) satisfying the above conditions is supplied to a smoother as shown in FIG. 2, and the smoothed output is determined by a threshold value P th to switch the codebook. Is also good.
  • the smoother shown in FIG. 2 is obtained by multiplying the input data by 0.2 in the multiplier 41 and by delaying the output data by one frame in the delay circuit 42 to 0.8 in the multiplier 43. Is added and taken out by the adder 44, and when the pitch lag P (k), which is input data, is not supplied, the state is maintained.
  • the codebook may be switched further according to the determination of voiced sound / unvoiced sound, or according to the value of the pitch strength P l (k) and the value of the frame power R 0 (k). Good.
  • the average value of the bitches is extracted from the stable pitch section, the male or female voice is determined, and the codebook for male and female is switched.
  • the distribution of the formant frequency of vowels is unbalanced between male and female voices.
  • switching between male and female voices in the vowel part reduces the space where vectors to be quantized exist.
  • good training that is, learning that can reduce the quantization error, becomes possible.
  • the statistical code book in the code excitation linear prediction (CELP) coding may be switched according to the above-described conditions.
  • the switching switch 35S as the stock codebook 35 in accordance with the above-described conditions
  • the male codebook 35M and the female codebook 3M are controlled. 5 F or one of them is selected.
  • the training data may be distributed based on the same criteria as the encoding and the Z decoding, and each training data may be optimized by, for example, a so-called LBG method.
  • the LSP calculation circuit 52 corresponds to, for example, the linear prediction code (LPC) analysis circuit 12 and the LSP conversion circuit 13 in FIG.
  • Case (3) is divided. Specifically, at least the case of a male voice under the condition (1) and the case of a female voice under the condition (2) may be determined.
  • each pitch lag P (k) of a frame whose pitch is highly reliable in a voiced section is stored for the past n frames, and the average of P (k) for these n frames is stored.
  • a value may be obtained, and this average value may be determined using the threshold value Pth .
  • the output from the smoother in Fig. The determination may be made by using
  • the 1 ⁇ 3 syllable data from the LSP calculation circuit 52 is sent to a training data assorting circuit 54, and in accordance with the discrimination output from the pitch discrimination circuit 53, the male training data 55 And female voice trains.
  • These training data are supplied to the training processing units 57 and 58, respectively, and the training processing is performed by, for example, the so-called LBG method.
  • a bookbook 15M and a female codebook 15F are created.
  • the LBG method refers to "An algorithm for vector quantizer design", Linde, Y., Buzo, A. and Gray, RM, IEEE Trans. Comm., COM -28, pp.84-95, Jan. 1980) is a training method for codebooks, which uses a so-called training sequence for an information source whose probability density function is unknown. This is a technique for designing a vector quantizer.
  • the codebook for male voice 15M and the codebook for female voice 15F created in this way are switched when the vector quantization by the LSP vector quantizer 14 in Fig. 1 is performed. Used by switching selected by 16. The switching of the switching switch 16 is controlled in accordance with the above-described determination result by the pitch detection circuit 22.
  • W (z) indicates the auditory weighting characteristic.
  • the data to be transmitted in such code-excited linear prediction (CELP) coding includes, in addition to the index information of the LSP vector in the LSP vector quantizer 14, the dynamic codebook 32, Index information of the Toki Stick Code Book 35, index information of the Gain Code Book 37, bit information of the pitch detection circuit 22 and the like.
  • the pitch value or the dynamic codebook index is a parameter that originally needs to be transmitted in normal CELP coding, the amount of transmitted information or the transmission rate increases. Absent. However, when parameters that are not originally transmitted, such as pitch strength, are used for switching between male and female codebooks, separate code switching information must be transmitted.
  • the above-described discrimination between a male voice and a female voice does not necessarily need to match the gender of the speaker, and it is only necessary that the codebook is selected based on the same criteria as the distribution of the training data.
  • the names of the male and female codebooks in the present embodiment are for convenience of explanation.
  • the reason why the code book is switched according to the pitch value is to utilize the fact that there is a correlation between the pitch value and the shape of the spectrum envelope.
  • the present invention is not limited to the above embodiment. For example, in the configuration shown in FIG. 1, each part is described in terms of hardware. A so-called DSP (digital signal processor) or the like is used. This can also be achieved through a soft-to-air program.
  • DSP digital signal processor
  • codebooks on the lower band side of band separation vector quantization and partial codebooks such as some codebooks of multistage vector quantization are converted to multiple codebooks for male and female voices.
  • the switching may be performed by a book.
  • matrix quantization may be performed on data of multiple frames at once.
  • the voice coding method to which the present invention is applied is not limited to the linear predictive coding method using code excitation, but uses sine wave synthesis for voiced sound parts, or converts unvoiced sound parts to noise signals. It can be applied to various voice encoding methods such as synthesis based on sound, and is not limited to transmission and recording / reproduction, but also to various applications such as pitch conversion and speed conversion, regular voice synthesis, and noise suppression. Of course, it can be applied.
  • one or a combination of a plurality of characteristic parameters of a speech signal is set as a reference parameter.
  • First and second codebooks are created by sorting out parameters that show short-term forecast values for this standard parameter.
  • a short-term prediction value is generated based on the input audio signal, one of the first and second codebooks is selected for the reference parameter of the input audio signal, and the short-term prediction is performed with reference to the selected codebook.
  • the input audio signal is encoded by quantizing the value. As a result, the quantization efficiency can be increased, and for example, the quality can be improved without increasing the transmission bit rate, or the transmission bit rate can be further reduced while suppressing the quality deterioration.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Communication Control (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Golf Clubs (AREA)
  • Tires In General (AREA)

Description

明細書 音声符号化方法
技術分野 本発明は、 入力音声信号の短期予測係数を示すパラメ一夕あるい は短期予測残差をべク トル量子化又はマ ト リクス量子化によって符 号化する音声符号化方法に関する。 背景技術 オーディオ信号 (音声信号や音響信号を含む) の時間領域や周波 数領域における統計的性質と人間の聴感上の特性を利用して信号圧 縮を行うような符号化方法が種々知られている。 この符号化方法と しては、 大別して時間領域での符号化、 周波数領域での符号化、 分 析合成符号化等が挙げられる。
音声信号等の高能率符号化の例として、 マルチパン ド励起 (Mult iband Excitation, 以下、 MB Eという。 ) 符号化、 シングルパン ド励起 (Single band Excitatioiu 以下、 S B Eという。 ) 符号化、 ハーモニック (Harmonic) 符号化、 帯域分割符号化 (Sub-band Cod ing、 以下 S B Cという。 ) 、 線形予測符号化 (Linear Predictive Coding, 以下、 L P Cという。 :) 、 あるいは離散コサイ ン変換(D C T) 、 モデファイ ド D C T (MD C T) 、 高速フーリエ変換 (F F T) 等において、 スペク トル振幅やそのパラメ一夕 ( L S Pパラ メータ、 ひパラメ一夕、 kパラメ一夕等) のような各種情報データ を量子化する場合には、 従来においてはスカラ量子化を行うことが 多かった。
このようなスカラ量子化の場合には、 ビッ ト レー トを例えば 3〜 4 k bps 程度にまで低減し、 量子化効率をさらに向上させよう とす ると、 量子化雑音や量子化歪みが大き くなつてしまい、 実用化が困 難である。 そこで、 これらの符号化の際に与えられる時間軸データ、 周波数軸デ一夕、 フ ィ ル夕係数データ等を個々に量子化せず、 複数 個のデ一夕をべク トルにまとめて、 あるいは複数フレームにまたが るべク トルをマ ト リ クスにまとめて、 べク トル量子化やマ ト リ クス 量子化を行うことが採用されてきている。
例えば、 符号励起線形予測 ( C E L P ) 符号化においては、 L P C残差 (residual ) を直接時間波形としてべク トル量子化やマ ト リ クス量子化を行っている。 また、 上述の M B E符号化におけるスぺ ク トルエンベロープ等の量子化にもべク トル量子化やマ ト リ クス量 子化が用いられている。
ところで、 ビッ ト レー トをさらに下げると、 L P C残差やスぺク トルそのもののエンベロープを示すパラメ一夕を量子化するために、 多くのビッ トを使えなくな り、 品質劣化を招く ことになる。
本発明は、 このような実情に鑑みてなされたものであ り、 少ない ビッ 卜数でも良好な量子化特性を得ることができるような音声符号 化方法の提供を目的とする。 発明の開示 本発明に係る音声符号化方法は、 音声信号の複数の特性パラメ一 夕の内の 1又は複数の組合せを基準パラメ一夕として、 この基準パ ラメ一夕に関して短期予測値を示すパラメ一夕を振り分けて形成し た第 1及び第 2のコー ドブックを設ける。 そして、 入力音声信号に 基づいて短期予測値を生成し、 入力音声信号の基準パラメ一夕に関 して第 1及び第 2のコー ドブックの一方を選択し、 この選択したコ 一ドブックを参照して短期予測値を量子化することにより、 入力音 声信号を符号化する。
ここで、 上記短期予測値は、 短期予測係数又は短期予測誤差であ る。 また、 上記複数の特性パラメ一夕は、 音声信号のピッチ値、 ビ ツチ強度、 フレームパワー、 有声音及び無声音の判別フラグ及び信 号スペク トルの傾きである。 また、 上記量子化は、 ベク トル量子化 又はマ ト リクス量子化である。 さらに、 上記基準パラメ一夕は音声 信号のピッチ値であり、 入力音声信号のピッチ値及び所定のピッチ 値の大きさの関係に応じて、 第 1及び第 2のコードブックの一方を 選択する。
そして、 本発明では、 入力音声信号に基づいて生成した短期予測 値を、 選択した第 1のコードブック又は第 2のコードブックを参照 して量子化することにより、 量子化効率を高める。 図面の簡単な説明 図 1は、 本発明に係る音声符号化方法が適用される装置の具体例 としての音声信号符号化装置の概略構成を示すプロック図である。 図 2は、 図 1内のビツチ検出回路に使用可能な平滑器の一例を示 す回路図である。
図 3は、 べク トル量子化の際に用いられるコ一 ドブックの形成
( ト レーニング) 方法を説明するためのブロ ック図である。 発明を実施するための最良の形態 以下、 本発明に係る好ましい実施例について説明する。
図 1は、 本発明に係る音声符号化方法を適用した音声信号符号化 装置の概略構成を示すプロ ック図である。
この音声信号符号化装置において、 入力端子 1 1 に供給された音 声信号は、 線形予測符号化 (Linear Predictive Codin 以下、 L P Cという。 ) 分析回路 1 2、 逆フ ィ ル夕回路 2 1及び聴覚重み付 けフ ィ ル夕算出回路 2 3に供給される。
L P C分析回路 1 2は、 入力信号波形を 2 5 6 サンプル程度の長 さを 1 ブロ ック としてハミ ング(hamming) 窓をかけて、 自己相関法 によ り線形予測係数 (Linear Predi ctor Coeff ic ients) 、 いわゆ るひパラメ一夕を求める。 データ出力の単位となる 1 フ レーム期間 は、 例えば 1 6 0サンブルを含む。 この場合、 サンプリ ング周波数 f s が例えば 8 k Hzであれば、 1 フ レーム期間は 2 0 m sec となる c
L P C分析回路 1 2からのひパラメ一夕は、 ひ L S P変換回路 1 3に供給されて、 線スぺク トル対 (Line Spectrum pair 以下、 L S Pという。 ) パラメ一夕に変換される。 すなわち、 直接型のフ ィル夕係数と して求まったひパラメ一夕は、 例えば 1 0個、 すなわ ち 5対の L S Pパラメ一夕に変換される。 この変換は、 例えばニュ 一トン一ラプソン法等を用いて行う。 この L S Pパラメ一夕に変換 するのは、 L S Pパラメ一夕がひパラメ一夕よ り も補間特性に優れ ているからである。
ひ— L S P変換回路 1 3からの L S Pパラメ一夕は、 L S Pべク トル量子化器 1 4によってベク トル量子化される。 このとき、 フレ ーム間差分をとつてからべク トル量子化してもよい。 あるいは、 複 数フレーム分をまとめてマ ト リ クス量子化してもよい。 ここでの量 子化では、 2 0 msec を 1フ レームとし、 2 0 msec 毎に算出され る L S Pパラメ一夕をべク トル量子化している。 このべク トル量子 化あるいはマ ト リクス量子化の際に、 後述する男声用コー ドブック 1 5 Mと女声用コー ドブック 1 5 Fとをピッチに応じて切換ス ィ ヅ チ 1 6を切り換えて用いている。
L S Pベク トル量子化器 1 4からの量子化出力、 すなわち L S P ベク トル量子化のイ ンデクスは外部に取り出され、 また量子化済み の L S Pベク トルは、 L S P ひ変換回路 1 7に供給され、 L S P ひ変換回路 1 7によって直接型フィル夕の係数である ひパラメ一 夕に変換される。 この L S P—ひ変換回路 1 7からの出力に基づい て、 符号励起線形予測 ( CE L P) 符号化における聴覚重み付き合 成フィル夕 3 1のフィルタ係数が算出される。
ここで、 符号励起線形予測 ( C E L P) 符号化のためのに、 いわ ゆるダイナミ ックコー ドブック (ピッチコー ドブック、 適応符号帳 ともいう。 ) 3 2からの出力がゲイ ン g。 を乗算する係数乗算器 3 3を介して加算器 34に供給され、 またいわゆるス トキャスティ ヅ クコードブック (雑音コー ドブック、 確率的コー ドブックともいう。 ) 3 5からの出力がゲイ ン g i を乗算する係数乗算器 3 6を介して加 算器 34に送られており、 この加算器 34からの加算出力が励起信 号として聴覚重み付き合成フィル夕 3 1 に供給される。
ダイナミ ックコー ドブック 3 2には過去の励起 (ェキサイテイ シ ヨ ン) 信号が保存されている。 ピッチ周期でこれを読み出して各ゲ イ ン g。 を乗算したものと、 ス トキヤスティ ックコー ドブック 3 5 からの信号に各ゲイ ン を乗算したものとを加算器 3 4で加算し、 この加算出力によって聴覚重み付き合成フィルタ 3 1 を励振する。 また、 加算器 3 4からの加算出力をダイナミ ックコー ドブック 3 2 に帰還することで一種の I I Rフィル夕を構成している。 ス トキヤ スティ ック (stochast ic ) コー ドブック 3 5は、 後述するように男 声用コ一 ドブック 3 5 Mと女声用コ一 ドブック 3 5 F との一方が切 換スィ ッチ 3 5 Sで切り換え選択される構成を有している。 また、 各係数乗算器 3 3、 3 6は、 ゲイ ンコー ドブック 3 7からの出力に 応じて各ゲイ ン g。、 g!が制御されるようになっている。 聴覚重み 付き合成フィル夕 3 1 からの出力は、 加算器 3 8に減算信号と して 供給される。 加算器 3 8からの出力信号は、 波形歪 (ユーク リ ッ ド 距離) 最小化回路 3 9 に供給され、 この波形歪最小化回路 3 9から の出力に基づき、 加算器 3 8からの出力、 すなわち重み付き波形歪 を最小化するように各コー ドブック 3 2、 3 5、 3 7からの読み出 しが制御される。
逆フィル夕回路 2 1 においては、 入力端子 1 1からの入力音声信 号が、 L P C分析回路 1 2からのひパラメ一夕によって逆フィル夕 リ ング処理され、 ピッチ検出回路 2 2に供給されてピッチ検出が行 われる。 このビヅチ検出回路 2 2からのピッチ検出結果に応じて、 切換スィ ッチ 1 6や切換スィ ッチ 3 5 Sが切り換え制御されて、 上 述の男声用コー ドブヅク 3 5 Mと女声用コー ドブック 3 5 Fとの切 換選択が行われる。
また、 聴覚重み付けフィル夕算出回路 2 3においては、 入力端子 1 1からの入力音声信号に対して L P C分析回路 1 2からの出力を 用いた聴覚重み付けフィル夕の算出が行われ、 聴覚重み付けされた 信号が加算器 24に供給される。 この加算器 24には、 零イ ンブッ トレスポンス回路 2 5からの出力が減算信号として供給されている。 この零イ ンプヅ ト レスポンス回路 2 5は、 前フレームの応答を重み 付き合成フィル夕で合成して出力するものであり、 この出力を聴覚 重み付けされた信号から減算することによって、 聴覚重み付き合成 フィル夕 3 1に残っていた前フレームのフィル夕応答を相殺し、 デ コーダに対して新たな入力として必要な信号を取り出すためのもの である。 この加算器 24からの加算出力は、 加算器 3 8に供給され て、 この加箅出力から聴覚重み付き合成フィル夕 3 1からの出力が 減算される。
以上のような構成を有する音声信号符号化装置において、 入力端 子 1 1からの入力信号を x(n) 、 L P C係数すなわちひパラメ一夕 をひ i 、 予測残差を res(n)とする。 iは、 分析次数を Pとするとき、 l≤ i≤Pである。 ここで、 入力信号 x(n) に対して、 逆フィル夕 回路 2 1により、
H(z)= 1 + α ιζ · · · ( ! )
式 ( 1 ) で表される逆フィル夕を施して、 予測残差 res(n)を、 例え ば 0≤ n≤ N— 1の範囲で求める。 ここで、 Nは符号化の単位とな るフ レーム長に相当するサンプル数であり、 例えば N = 1 6 0であ る。
次に、 ビヅチ検出回路 2 2においては、 逆フィルタ回路 2 1 から 供給される予測残差 res(n)をローパスフ ィ ル夕 (以下、 L P Fとい う。 ) に通し、 resl(n) を得る。 L P Fは、 通常、 サンプリ ングク 口 ックの周波数 f s が 8 kHzの場合、 カッ トオフ周波数 f c が l k Hz程度のものを用いる。 次に、 resl(n) の自己相関関数 Φ r e s i ( i ) を式 ( 2 ) に基づいて算出する。
Figure imgf000010_0001
ここで、 通常 LBi n= 2 0、 Lmax= 1 4 7程度を用いる。 この自 己相関関数 Φ
Figure imgf000010_0002
のビーク値を与える i又は適当な処理によつ てビークを与える i を トラ ヅキングして求めたピッチを、 現フ レー ムのピッチとする。 例えば第 kフ レームのピッチ、 具体的にはビッ チラグを P (k) とする。 また、 ピッチの信頼度あるいはピッチ強度 P l(k)を式 ( 3 ) によ り定義する。
P l(k)= res l(P (k))/ re s l(O) · · · ( 3 ) すなわち、 $ res l(0) で正規化された自己相関の強さを定義する。 さらに、 通常の符号励起線形予測 ( C E L P ) 符号化においては、 フ レームパワー R 0(k)を式 ( 4 ) によ り算出する。 o(k) = ^-¾x2(n) (4) ここで、 kはフレーム番号を示す。
これらのピッチラグ P (k) 、 ピッチ強度 Pl(k)、 フレームパワー R。(1 の値によって、 { a i }の量子化テーブル又はひパラメ一夕を L S P (線スペク トル対) に変換して形成された量子化テーブルを 男声用と女声用とで切り換える。 図 1の例では、 L S Pをベク トル 量子化するための L S Pべク トル量子化器 1 4の量子化テーブルを、 男声用コー ドブック 1 5Mと女声用コードブック 1 5 Fとの間で切 り換えている。
例えば、 男声と女声とを区別するためのピッチラグ P(k) の閾値 を Pthとし、 ピッチの信頼性を判別するためのピッチ強度 Pl(k)及 びフ レームパワー R0(k)の各閾値を P l t h 及び R。t h とするとき、
( 1 ) P (k)≥ P t h, かつ P l(k)> P 1 、 かつ R0(k)>Roth のと きは、 第 1のコードブック、 例えば男声用コードブック 1 5 Mを使 用し、
( 2 ) P (k)≤ P t h, かつ P l(k)> P lth、 かつ R。(k)>R。t h のと きは、 第 2のコードブック、 例えば女声用コードブック 1 5 Fを使 用し、
( 3 ) 上記 ( 1 ) 、 ( 2 ) 以外のときは、 第 3のコードブックを使 用 "5 る。
この第 3のコードブックは、 上述の男声用コードブック 1 5 M、 女声用コー ドブック 1 5 Fとは別個のものを用意してもよいが、 例 えば男声用コードブック 1 5 M、 女声用コードブック 1 5 Fのいず れか一方を用いてもよい。
なお、 上述の各閾値の具体的な値としては、 例えば Pth= 4 5、 Plth= 0.7、 R。(k)= (フルスケール一 4 OdB) を挙げることが できる。
あるいは、 P l(k)> P lth'かつ R 0(k)> R o t h となる、 すなわち 有声音区間でビツチの信頼性が高いフレームの各ピッチラグ P (k) を過去 nフレーム分保存し、 これらの nフレーム分の P (k) の平均 値を求めて、 この平均値を所定の閾値 Pthで判別することによ りコ — ドブックを切り換えるようにしてもよい。
あるいは、 上述のような条件を満たすピッチラグ P (k) を図 2に 示すような平滑器に供給し、 この平滑出力を閾値 P t hで判別するこ とによ り、 コー ドブックを切り換えるようにしてもよい。 なお、 図 2の平滑器は、 入力デ一夕に乗算器 4 1で 0. 2を乗算したものと、 出力データを遅延回路 4 2で 1フ レーム遅延して乗算器 4 3で 0. 8を乗算したものとを加算器 44で加算して取り出しており、 入力 データであるピッチラグ P (k) が供給されないときは状態を保持し たままとなるものとする。
このような切換と組み合わせて、 さらに有声音/無声音の判断に 従って、 あるいはピッチ強度 P l(k)の値、 フレームパワー R0(k)の 値に応じて、 コー ドブックを切り換えるようにしてもよい。
これによつて、 安定したピッチ区間からビツチの平均値を抽出し、 男声か女声かの判断を行い、 男声用コー ドブック と女声用コー ドブ ヅク との切換を行っている。 これは、 男声と女声とで、 母音のフォ ルマン ト周波数の分布に偏りがあるため、 特に母音部で男声、 女声 の切換を行うことで、 量子化すべきべク トルの存在する空間が小さ くな り、 すなわちベク トルの分散が減り、 良好な ト レーニング、 す なわち量子化誤差を小さ くできる学習が可能になるからである。 また、 符号励起線形予測 ( C E L P ) 符号化におけるス トキャス ティ ックコー ドブックを、 上述の条件に応じて切り換えるようにし てもよい。 図 1の例では、 ス トキヤスティ ックコードブック 3 5と して、 切換スィ ッチ 3 5 Sを、 上述の条件に応じて切り換え制御す ることにより、 男声用コー ドブック 3 5 Mと女声用コー ドブック 3 5 Fとのいずれか一方を選択している。
ところで、 コードブックの学習は、 エンコー ド時 Zデコード時と 同様な基準で トレーニングデ一夕を振り分けて、 各々の トレーニン グデータに対して例えばいわゆる L B G法により最適化を行うよう にすればよい。
すなわち、 図 3において、 トレーニング用の例えば数分程度の音 声信号から成る トレーニングセ ヅ ト 5 1からの信号は、 線スぺク ト ル対 (L S P) 算出回路 5 2及びピッチ判別回路 5 3に供給される。
L S P算出回路 5 2は、 例えば図 1の線形予測符号 ( L P C ) 分析 回路 1 2及びひ—; L S P変換回路 1 3に相当し、 ピッチ判別回路 5
3は、 図 1の逆フ ィ ル夕回路 2 1及びピッチ検出回路 2 2に相当す る。 ピッチ判別回路 5 3では、 上述したように、 ピッチラグ P(k)、 ピッチ強度 PI (k)及びフ レームパワー R。(k)を、 それぞれ上述の各 閾値 P th、 Pith, R。 により弁別して、 上述の条件 ( 1 ) 、 ( 2 ) 、
( 3 ) の場合分けを行っている。 具体的には、 少なく とも条件 ( 1 ) の男声の場合と、 条件 ( 2 ) の女声の場合を判別すればよい。 ある いは、 上述したように、 有声音区間でピッチの信頼性が高いフ レー ムの各ピッチラグ P(k) を過去 nフレーム分保存し、 これらの nフ レーム分の P(k) の平均値を求めて、 この平均値を閾値 P t hで判別 するようにしてもよい。 また、 図 2の平滑器からの出力を閾値 P で判別するようにしてもよい。
L S P算出回路 5 2からの 1^ 3卩デー夕は、 ト レーニングデ一夕 振り分け(assorting) 回路 5 4に送られ、 ピッチ判別回路 5 3から の判別出力に応じて、 男声用 ト レーニングデータ 5 5 と女声用 ト レ —ニングデ一夕 5 6とに振り分けられる。 これらの ト レーニングデ 一夕は、 それぞれ ト レーニング処理部 5 7、 5 8に供給されて、 例 えばいわゆる L B G法によ り ト レ一ニング処理が行われることによ り、 図 1の男声用コー ドブック 1 5 M、 女声用コー ドブック 1 5 F が作成される。 ここで、 L B G法とは、 「ベク トル量子化器設計の アフレコ リ ズム」 ( An Algorithm for Vector Quantizer Design" , Linde, Y. , Buzo, A. and Gray, R. M., IEEE Trans. Comm. , COM - 28, pp.84-95, Jan. 1980 ) において提案されたコー ドブックの ト レーニング法であり、 確率密度関数が知られていない情報源に対し ていわゆる ト レーニング系列を用いて局所的な最適べク トル量子化 器を設計するための技術である。
このようにして作成された男声用コー ドブック 1 5 M、 女声用コ ー ドブック 1 5 Fは、 図 1の L S Pぺク トル量子化器 1 4によるべ ク トル量子化の際に切換スィ ッチ 1 6によ り切り換え選択されて用 いられる。 この切換スィ ッチ 1 6は、 ピッチ検出回路 2 2による上 述したような判別結果に応じて切り換え制御される。
L S Pべク トル量子化器 1 4からの量子化出力であるイ ンデクス 情報、 すなわち代表ベク トルのコー ドは、 伝送すべきデータと して 取り出され、 また出力ベク トルの量子化済みの L S Pデ一夕は、 L S P→a変換回路 1 7にてひパラメ一夕に変換されて、 聴覚重み付 き合成フィル夕 3 1に送られる。 この聴覚重み付き合成フィル夕 3 1の特性 1/A(z) は、 式 ( 5 ) によって表される
Figure imgf000015_0001
この式 ( 5 ) で、 W(z) は聴覚重み付け特性を示している。
このような符号励起線形予測 ( C E L P) 符号化において伝送す べきデータとしては、 L S Pベク トル量子化器 1 4での L S Pの代 表べク トルのインデクス情報の他に、 ダイナミ ックコードブック 3 2、 ス トキヤスティ ックコードブック 3 5の各イ ンデクス情報、 ゲ イ ンコードブック 3 7のインデクス情報、 ピッチ検出回路 2 2のビ ツチ情報等が挙げられる。 このように、 ピッチの値あるいはダイナ ミ ヅクコードブックのインデクスは、 通常の C E L P符号化におい ては元々伝送する必要のあるパラメ一夕であるので、 伝送情報量あ るいは伝送レートの増加は生じない。 ただし、 本来伝送しないパラ メータ、 例えばピッチ強度等を男声用コードブック/女声用コー ド ブックの切換に用いるような場合は、 別途コード切換情報を伝送す る必要がある。
ここで、 上述した男声、 女声の判別は、 必ずしも話者の性別に一 致する必要はなく、 ト レーニングデータの振り分けと同一の基準で コードブックの選択が行われていればよい。 本実施例での男声用コ ードブック/女声用コードブックという呼称は説明のための便宜上 のものである。 本実施例において、 ピッチの値によってコードブッ クを切り換えているのは、 ビヅチの値とスぺク トルエンべロープの 形状とに相関があることを利用したものである。 なお、 本発明は上記実施例のみに限定されるものではなく、 例え ば図 1の構成については、 各部をハードウェア的に記載しているが. いわゆる D S P (ディ ジタル信号プロセッサ) 等を用いてソフ トゥ エアプログラムにより実現することも可能である。 また、 帯域分離 べク トル量子化の低域側のコー ドブックや、 多段ベク トル量子化の 一部のコードブックのような部分的なコー ドブックを男声用、 女声 用のような複数のコ一 ドブックで切り換えるようにしてもよい。 ま た、 ベク トル量子化の代わりに、 複数フレームのデータをまとめて マ ト リクス量子化を施してもよい。 さらに、 本発明が適用される音 声符号化方法は、 符号励起を用いた線形予測符号化方法に限定され るものではなく、 有声音部分に正弦波合成を用いたり、 無声音部分 をノィズ信号に基づいて合成するような種々の音声符号化方法に適 用でき、 用途としても、 伝送や記録再生に限定されず、 ピッチ変換 やスピード変換、 規則音声合成、 あるいは雑音抑圧のような種々の 用途に応用できることは勿論である。 産業上の利用可能性 以上の説明から明らかなように、 本発明に係る音声符号化方法で は、 音声信号の複数の特性パラメ一夕の内の 1又は複数の組合せを 基準パラメ一夕として、 この基準パラメ一夕に関して短期予測値を 示すパラメ一夕を振り分けて形成した第 1及び第 2のコードブック を設ける。 そして、 入力音声信号に基づいて短期予測値を生成し、 入力音声信号の基準パラメ一夕に関して第 1及び第 2のコードブヅ クの一方を選択し、 この選択したコードブックを参照して短期予測 値を量子化することにより、 入力音声信号を符号化する。 これによ り、 量子化効率を高めることができ、 例えば伝送ビッ ト レートを増 やさずに品質の向上が図れ、 あるいは品質劣化を抑えながら伝送ビ ッ トレー トをさらに低減することができる。

Claims

請求の範囲
1 . 入力音声信号に基づいて短期予測値を生成し、
音声信号の複数の特性パラメ一夕の内の 1又は複数の組合せを基 準パラメ一夕として、 上記基準パラメ一夕に関して短期予測値を示 すパラメ一夕を振り分けて形成した第 1及び第 2のコードブックを 設け、
上記入力音声信号の上記基準パラメータに関して上記第 1及び第 2のコ一ドブックの一方を選択し、
上記選択したコー ドブックを参照して上記短期予測値を量子化す ることにより、 上記入力音声信号を符号化することを特徴とする音 声符号化方法。
2 . 上記短期予測値は、 短期予測係数であることを特徴とする請 求の範囲第 1項に記載の音声符号化方法。
3 . 上記短期予測値は、 短期予測誤差であることを特徴とする請 求の範囲第 1項に記載の音声符号化方法。
4 . 上記複数の特性パラメ一夕は、 音声信号のピッチ値、 ピッチ 強度、 フ レームパワー、 有声音及び無声音の判別フラグ及び信号ス べク トルの傾きであることを特徴とする請求の範囲第 1項に記載の 音声符号化方法。
5 . 上記短期予測値をベク トル量子化することにより、 上記入力 音声信号を符号化することを特徴とする請求の範囲第 1項に記載の 音声符号化方法。
6 . 上記短期予測値をマト リクス量子化することによ り、 上記入 力音声信号を符号化することを特徴とする請求の範囲第 1項に記載 の音声符号化方法。
7 . 上記基準パラメ一夕は音声信号のピッチ値であり、 上記入力 音声信号のピッチ値及び所定のピッチ値の大きさの関係に応じて、 上記第 1及び第 2のコードブックの一方を選択することを特徴とす る請求の範囲第 1項に記載の音声符号化方法。
補正害の請求の範囲
[ 1 9 9 6年 4月 1 9日 ( 1 9 . 0 4 . 9 6 ) 国際事務局受理:出願当初の請求の範囲 2及び 3は取 り下げられた:出颗当初の請求の範囲 1, 4 , 5 , 6及び 7は補正され番号がそれぞれ 7, 8 , 9 , 1 0, 1 1に付け替えられた:新しい諸求の範囲 1一 6, 1 2— 2 4が加えられた。 ( 6頁) ]
1 . 入力音声信号に基づき短期予測係数を生成する短期予測手段 と、
音声信号の複数の特性パラメ一夕の内の 1つ又は複数の組合せを 基準パラメ一夕として、 上記基準パラメ一夕に関して短期予測係数 を示すパラメ一夕を振り分けて形成した複数のコ一ドブックと、 上記入力音声信号の上記基準パラメ一夕に関係して上記複数のコ ードブックの 1つを選択する選択手段と、
上記選択手段で選択したコードブックを参照して上記短期予測係 数を量子化する量子化手段と、
を備え、
上記量子化手段からの量子化値を用いて励起信号を最適化するこ とを特徴とする音声符号化装置。
2 . 上記複数の特性パラメ一夕は、 音声信号のピッチ値、 ピッチ 強度、 フレームパワー、 有声音及び無声音の判別フラグ及び信号ス ぺク トルの傾きであることを特徴とする請求の範囲第 1項に記載の 音声符号化装置。
3 . 上記量子化手段は、 上記短期予測係数をベク トル量子化する ことを特徴とする請求の範囲第 1項に記載の音声符号化装置。
4 . 上記量子化手段は、 上記短期予測係数をマ ト リクス量子化す ることを特徴とする請求の範囲第 1項に記載の音声符号化装置。
5 . 上記基準パラメ一夕は音声信号のビツチ値であり、
上記選択手段は、 上記入力音声信号のビッチ値及び所定ビッチ値 の大きさの関係に応じて、 上記複数のコードブックの 1つを選択す
補正された 紙 ( 第 19条) ることを特徴とする請求の範囲第 1項に記載の音声符号化装置。
6 . 上記複数のコードブックは、 男声用コードブック及び女声用 コードブックを含むことを特徴とする請求の範囲第 1項に記載の音 声符号化装置。
7 . 入力音声信号に基づき短期予測係数を生成し、
音声信号の複数の特性パラメ一夕の内の 1つ又は複数の組合せを 基準パラメ一夕として、 上記基準パラメ一夕に関して短期予測係数 を示すパラメ一夕を振り分けて形成した複数のコードブックを設け、 上記入力音声信号の上記基準パラメ一夕に関係して上記複数のコ ードブックの 1つを選択し、
上記選択したコ一ドブックを参照して上記短期予測係数を量子化 し、
上記短期予測係数のからの量子化値を用いて励起信号を最適化す ることを特徴とする音声符号化方法。
8 . 上記複数の特性パラメ一夕は、 音声信号のピッチ値、 ピッチ 強度、 フレームパワー、 有声音及び無声音の判別フラグ及び信号ス ぺク トルの傾きであることを特徴とする請求の範囲第 7項に記載の 音声符号化方法。
9 . 上記短期予測係数をベク トル量子化することで、 上記入力音 声信号を符号化することを特徴とする請求の範囲第 7項に記載の音 声符号化方法。
1 0 . 上記短期予測係数をマ ト リクス量子化することで、 上記入 力音声信号を符号化することを特徴とする請求の範囲第 7項に記載 の音声符号化方法。
1 1 . 上記基準パラメ一夕は音声信号のピッチ値であり、 上記入
補正された用紙 (条約第 19条) 力音声信号のピッチ値及び所定ピッチ値の大きさの関係に応じて、 上記複数のコードブックの 1つを選択することを特徴とする請求の 範囲第 7項に記載の音声符号化方法。
1 2 . 上記複数のコードブックは、 男声用コードブック及び女声 用コードブックを含むことを特徴とする請求の範囲第 7項に記載の 音声符号化方法。
1 3 . 入力音声信号に基づき短期予測係数を生成する短期予測手 段と、
音声信号の複数の特性パラメ一夕の内の 1つ又は複数の組合せを 基準パラメ一夕として、 上記基準パラメ一夕に関して短期予測係数 を示すパラメ一夕を振り分けて形成された第 1の複数のコ一ドブッ クと、
上記入力音声信号の上記基準パラメ一夕に関係して上記第 1の複 数のコードブックの 1つを選択する選択手段と、
上記選択手段で選択したコードブックを参照して上記短期予測係 数を量子化する量子化手段と、
音声信号の複数の特性パラメ一夕の内の 1つ又は複数の組合せを 基準パラメ一夕として、 上記基準パラメ一夕に関して振り分けた ト レーニングデータに基づき夫々形成され、 上記選択手段により第 1 の複数のコードブックの選択と共に 1つが選択される第 2の複数の コードブヅクと、
上記第 2の複数のコ一ドブックの選択されたコードブックの出力 に関係する励起信号を上記量子化手段からの量子化値に基づき合成 する合成手段と、
を備え、
補正された兩敏 (条約第19条) 上記合成手段の出力に応じて上記励起信号を最適化することを特 徴とする音声符号化装置。
1 4 . 上記複数の特性パラメ一夕は、 音声信号のピッチ値、 ビッ チ強度、 フレームパワー、 有声音及び無声音の判別フラグ及び信号 スぺク トルの傾きであることを特徴とする請求の範囲第 1 3項に言己 載の音声符号化装置。
1 5 . 上記量子化手段は、 上記短期予測係数をべク トル量子化す ることを特徴とする請求の範囲第 1 3項に記載の音声符号化装置。
1 6 . 上記量子化手段は、 上記短期予測係数をマ ト リクス量子化 することを特徴とする請求の範囲第 1 3項に記載の音声符号化装置。
1 7 . 上記基準パラメ一夕は音声信号のピッチ値であり、
上記選択手段は、 上記入力音声信号のピッチ値及び所定ピツチ値 の大きさの関係に応じて、 上記第 1の複数のコ一ドブックの 1つを 選択することを特徴とする請求の範囲第 1 3項に記載の音声符号化
1 8 . 上記第 1及び第 2複数のコードブックの各々は、 男声用コ 一ドブック及び女声用コ一ドブックを含むことを特徴とする請求の 範囲第 1 3項に記載の音声符号化装置。
1 9 . 入力音声信号に基づき短期予測係数を生成し、
音声信号の複数の特性パラメ一夕の内の 1つ又は複数の組合せを 基準パラメ一夕として、 上記基準パラメ一夕に関して短期予測係数 を示すパラメ一夕を振り分けて形成された第 1の複数のコードブッ クを設け、
上記入力音声信号の上記基準パラメータに関係して上記第 1の複 数のコードブックの 1つを選択し、
補正きれた用紙 (条約第 19条) 上記選択したコードブックを参照して上記短期予測係数を量子化 し、
音声信号の複数の特性パラメ一夕の内の 1つ又は複数の組合せを 基準パラメ一夕として、 上記基準パラメ一夕に関して振り分けた ト レーニングデータに基づき夫々形成され、 上記第 1の複数のコード ブックの選択と共に 1つが選択される第 2の複数のコードブックを 設け、
上記第 2の複数のコードブックの選択されたコ一 ドブックの出力 に関係する励起信号を上記短期予測係数の量子化値に基づき合成す して、 上記励起信号を最適化することを特徴とする音声符号化方法 2 0 . 上記複数の特性パラメ一夕は、 音声信号のピッチ値、 ビッ チ強度、 フレームパワー、 有声音及び無声音の判別フラグ及び信号 スぺク トルの傾きであることを特徴とする請求の範囲第 1 9項に記 載の音声符号化方法。
2 1 . 上記短期予測係数をベク トル量子化することで、 上記入力 音声信号を符号化することを特徴とする請求の範囲第 1 9項に記載 の音声符号化方法。
2 2 . 上記短期予測係数をマ トリクス量子化することで、 上記入 力音声信号を符号化することを特徴とする請求の範囲第 1 9項に記 載の音声符号化方法。
2 3 . 上記基準パラメ一夕は音声信号のピッチ値であり、 上記入 力音声信号のピッチ値及び所定ピッチ値の大きさの関係に応じて、 上記第 1の複数のコードブックの 1つを選択することを特徴とする 請求の範囲第 1 9項に記載の音声符号化方法。
2 4 . 上記第 1及び第 2複数のコードブックの各々は、 男声用コ
铺正された用紙 (条約第 19条) 一ドブック及び女声用コードブックを含むことを特徴とする請求の 範囲第 1 9項に記載の音声符号化方法。
補正された用紙 (条約第19条 )
PCT/JP1995/002607 1994-12-21 1995-12-19 Sound encoding system Ceased WO1996019798A1 (en)

Priority Applications (9)

Application Number Priority Date Filing Date Title
AT95940473T ATE233008T1 (de) 1994-12-21 1995-12-19 System zur sprachkodierung
EP95940473A EP0751494B1 (en) 1994-12-21 1995-12-19 Speech encoding system
BR9506841A BR9506841A (pt) 1994-12-21 1995-12-19 Processo de coidificação de voz
AU41901/96A AU703046B2 (en) 1994-12-21 1995-12-19 Speech encoding method
KR1019960704546A KR970701410A (ko) 1994-12-21 1995-12-19 음성 부호화 방법(Sound Encoding System)
US08/676,226 US5950155A (en) 1994-12-21 1995-12-19 Apparatus and method for speech encoding based on short-term prediction valves
PL95316008A PL316008A1 (en) 1994-12-21 1995-12-19 Method of encoding speech signals
DE69529672T DE69529672T2 (de) 1994-12-21 1995-12-19 System zur sprachkodierung
MXPA/A/1996/003416A MXPA96003416A (en) 1994-12-21 1996-08-15 Ha coding method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP6/318689 1994-12-21
JP6318689A JPH08179796A (ja) 1994-12-21 1994-12-21 音声符号化方法

Publications (1)

Publication Number Publication Date
WO1996019798A1 true WO1996019798A1 (en) 1996-06-27

Family

ID=18101922

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1995/002607 Ceased WO1996019798A1 (en) 1994-12-21 1995-12-19 Sound encoding system

Country Status (16)

Country Link
US (1) US5950155A (ja)
EP (1) EP0751494B1 (ja)
JP (1) JPH08179796A (ja)
KR (1) KR970701410A (ja)
CN (1) CN1141684A (ja)
AT (1) ATE233008T1 (ja)
AU (1) AU703046B2 (ja)
BR (1) BR9506841A (ja)
CA (1) CA2182790A1 (ja)
DE (1) DE69529672T2 (ja)
ES (1) ES2188679T3 (ja)
MY (1) MY112314A (ja)
PL (1) PL316008A1 (ja)
TR (1) TR199501637A2 (ja)
TW (1) TW367484B (ja)
WO (1) WO1996019798A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6205130B1 (en) 1996-09-25 2001-03-20 Qualcomm Incorporated Method and apparatus for detecting bad data packets received by a mobile telephone using decoded speech parameters
KR100416362B1 (ko) * 1998-09-16 2004-01-31 텔레폰아크티에볼라게트 엘엠 에릭슨 Celp 인코딩/디코딩 방법 및 장치
US7184954B1 (en) 1996-09-25 2007-02-27 Qualcomm Inc. Method and apparatus for detecting bad data packets received by a mobile telephone using decoded speech parameters
US7788092B2 (en) 1996-09-25 2010-08-31 Qualcomm Incorporated Method and apparatus for detecting bad data packets received by a mobile telephone using decoded speech parameters
EP2154680A3 (en) * 1997-12-24 2011-12-21 Mitsubishi Electric Corporation Method and apparatus for speech coding

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3273455B2 (ja) * 1994-10-07 2002-04-08 日本電信電話株式会社 ベクトル量子化方法及びその復号化器
EP0858069B1 (en) * 1996-08-02 2006-11-29 Matsushita Electric Industrial Co., Ltd. Voice encoder, voice decoder and recording medium thereof
JP3707153B2 (ja) * 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
DE19654079A1 (de) * 1996-12-23 1998-06-25 Bayer Ag Endo-ekto-parasitizide Mittel
KR100350340B1 (ko) 1997-03-12 2002-08-28 미쓰비시덴키 가부시키가이샤 음성 부호화 장치, 음성 복호 장치 및 음성 부호화 복호 장치 및 음성 부호화 방법, 음성 복호 방법 및 음성 부호화 복호 방법
IL120788A (en) * 1997-05-06 2000-07-16 Audiocodes Ltd Systems and methods for encoding and decoding speech for lossy transmission networks
TW408298B (en) * 1997-08-28 2000-10-11 Texas Instruments Inc Improved method for switched-predictive quantization
JP3235543B2 (ja) * 1997-10-22 2001-12-04 松下電器産業株式会社 音声符号化/復号化装置
JP4308345B2 (ja) * 1998-08-21 2009-08-05 パナソニック株式会社 マルチモード音声符号化装置及び復号化装置
JP2000305597A (ja) * 1999-03-12 2000-11-02 Texas Instr Inc <Ti> 音声圧縮のコード化
JP2000308167A (ja) * 1999-04-20 2000-11-02 Mitsubishi Electric Corp 音声符号化装置
US6449313B1 (en) * 1999-04-28 2002-09-10 Lucent Technologies Inc. Shaped fixed codebook search for celp speech coding
GB2352949A (en) * 1999-08-02 2001-02-07 Motorola Ltd Speech coder for communications unit
US6721701B1 (en) * 1999-09-20 2004-04-13 Lucent Technologies Inc. Method and apparatus for sound discrimination
US6510407B1 (en) 1999-10-19 2003-01-21 Atmel Corporation Method and apparatus for variable rate coding of speech
JP3462464B2 (ja) * 2000-10-20 2003-11-05 株式会社東芝 音声符号化方法、音声復号化方法及び電子装置
KR100446630B1 (ko) * 2002-05-08 2004-09-04 삼성전자주식회사 음성신호에 대한 벡터 양자화 및 역 벡터 양자화 장치와그 방법
EP1383109A1 (fr) * 2002-07-17 2004-01-21 STMicroelectronics N.V. Procédé et dispositif d'encodage de la parole à bande élargie
JP4816115B2 (ja) * 2006-02-08 2011-11-16 カシオ計算機株式会社 音声符号化装置及び音声符号化方法
EP2202727B1 (en) * 2007-10-12 2018-01-10 III Holdings 12, LLC Vector quantizer, vector inverse quantizer, and the methods
CN100578619C (zh) * 2007-11-05 2010-01-06 华为技术有限公司 编码方法和编码器
GB2466671B (en) 2009-01-06 2013-03-27 Skype Speech encoding
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
GB2466675B (en) * 2009-01-06 2013-03-06 Skype Speech coding
JP2011090031A (ja) * 2009-10-20 2011-05-06 Oki Electric Industry Co Ltd 音声帯域拡張装置及びプログラム、並びに、拡張用パラメータ学習装置及びプログラム
US8280726B2 (en) * 2009-12-23 2012-10-02 Qualcomm Incorporated Gender detection in mobile phones
EP3249647B1 (en) 2010-12-29 2023-10-18 Samsung Electronics Co., Ltd. Apparatus and method for encoding for high-frequency bandwidth extension
US9972325B2 (en) 2012-02-17 2018-05-15 Huawei Technologies Co., Ltd. System and method for mixed codebook excitation for speech coding
CN107452390B (zh) 2014-04-29 2021-10-26 华为技术有限公司 音频编码方法及相关装置
US10878831B2 (en) * 2017-01-12 2020-12-29 Qualcomm Incorporated Characteristic-based speech codebook selection

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56111899A (en) * 1980-02-08 1981-09-03 Matsushita Electric Industrial Co Ltd Voice synthetizing system and apparatus
JPS5912499A (ja) * 1982-07-12 1984-01-23 松下電器産業株式会社 音声符号化装置
JPH04328800A (ja) * 1991-04-30 1992-11-17 Nippon Telegr & Teleph Corp <Ntt> 音声の線形予測パラメータ符号化方法
JPH05232996A (ja) * 1992-02-20 1993-09-10 Olympus Optical Co Ltd 音声符号化装置

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60116000A (ja) * 1983-11-28 1985-06-22 ケイディディ株式会社 音声符号化装置
IT1180126B (it) * 1984-11-13 1987-09-23 Cselt Centro Studi Lab Telecom Procedimento e dispositivo per la codifica e decodifica del segnale vocale mediante tecniche di quantizzazione vettoriale
IT1195350B (it) * 1986-10-21 1988-10-12 Cselt Centro Studi Lab Telecom Procedimento e dispositivo per la codifica e decodifica del segnale vocale mediante estrazione di para metri e tecniche di quantizzazione vettoriale
US4817157A (en) * 1988-01-07 1989-03-28 Motorola, Inc. Digital speech coder having improved vector excitation source
EP0364647B1 (en) * 1988-10-19 1995-02-22 International Business Machines Corporation Improvement to vector quantizing coder
US5012518A (en) * 1989-07-26 1991-04-30 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
DE4009033A1 (de) * 1990-03-21 1991-09-26 Bosch Gmbh Robert Vorrichtung zur unterdrueckung einzelner zuendvorgaenge in einer zuendanlage
US5202926A (en) * 1990-09-13 1993-04-13 Oki Electric Industry Co., Ltd. Phoneme discrimination method
JP3151874B2 (ja) * 1991-02-26 2001-04-03 日本電気株式会社 音声パラメータ符号化方式および装置
JP3432822B2 (ja) * 1991-06-11 2003-08-04 クゥアルコム・インコーポレイテッド 可変速度ボコーダ
US5487086A (en) * 1991-09-13 1996-01-23 Comsat Corporation Transform vector quantization for adaptive predictive coding
US5371853A (en) * 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith
US5651026A (en) * 1992-06-01 1997-07-22 Hughes Electronics Robust vector quantization of line spectral frequencies
JP2746039B2 (ja) * 1993-01-22 1998-04-28 日本電気株式会社 音声符号化方式
US5491771A (en) * 1993-03-26 1996-02-13 Hughes Aircraft Company Real-time implementation of a 8Kbps CELP coder on a DSP pair
IT1270439B (it) * 1993-06-10 1997-05-05 Sip Procedimento e dispositivo per la quantizzazione dei parametri spettrali in codificatori numerici della voce
US5533052A (en) * 1993-10-15 1996-07-02 Comsat Corporation Adaptive predictive coding with transform domain quantization based on block size adaptation, backward adaptive power gain control, split bit-allocation and zero input response compensation
US5602961A (en) * 1994-05-31 1997-02-11 Alaris, Inc. Method and apparatus for speech compression using multi-mode code excited linear predictive coding
FR2720850B1 (fr) * 1994-06-03 1996-08-14 Matra Communication Procédé de codage de parole à prédiction linéaire.
JP3557662B2 (ja) * 1994-08-30 2004-08-25 ソニー株式会社 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置
US5602959A (en) * 1994-12-05 1997-02-11 Motorola, Inc. Method and apparatus for characterization and reconstruction of speech excitation waveforms
US5699481A (en) * 1995-05-18 1997-12-16 Rockwell International Corporation Timing recovery scheme for packet speech in multiplexing environment of voice with data applications
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
US5710863A (en) * 1995-09-19 1998-01-20 Chen; Juin-Hwey Speech signal quantization using human auditory models in predictive coding systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56111899A (en) * 1980-02-08 1981-09-03 Matsushita Electric Industrial Co Ltd Voice synthetizing system and apparatus
JPS5912499A (ja) * 1982-07-12 1984-01-23 松下電器産業株式会社 音声符号化装置
JPH04328800A (ja) * 1991-04-30 1992-11-17 Nippon Telegr & Teleph Corp <Ntt> 音声の線形予測パラメータ符号化方法
JPH05232996A (ja) * 1992-02-20 1993-09-10 Olympus Optical Co Ltd 音声符号化装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6205130B1 (en) 1996-09-25 2001-03-20 Qualcomm Incorporated Method and apparatus for detecting bad data packets received by a mobile telephone using decoded speech parameters
US7184954B1 (en) 1996-09-25 2007-02-27 Qualcomm Inc. Method and apparatus for detecting bad data packets received by a mobile telephone using decoded speech parameters
US7788092B2 (en) 1996-09-25 2010-08-31 Qualcomm Incorporated Method and apparatus for detecting bad data packets received by a mobile telephone using decoded speech parameters
EP2154680A3 (en) * 1997-12-24 2011-12-21 Mitsubishi Electric Corporation Method and apparatus for speech coding
US9263025B2 (en) 1997-12-24 2016-02-16 Blackberry Limited Method for speech coding, method for speech decoding and their apparatuses
US9852740B2 (en) 1997-12-24 2017-12-26 Blackberry Limited Method for speech coding, method for speech decoding and their apparatuses
KR100416362B1 (ko) * 1998-09-16 2004-01-31 텔레폰아크티에볼라게트 엘엠 에릭슨 Celp 인코딩/디코딩 방법 및 장치

Also Published As

Publication number Publication date
AU703046B2 (en) 1999-03-11
MX9603416A (es) 1997-12-31
EP0751494A4 (en) 1998-12-30
US5950155A (en) 1999-09-07
EP0751494A1 (en) 1997-01-02
MY112314A (en) 2001-05-31
CN1141684A (zh) 1997-01-29
AU4190196A (en) 1996-07-10
ES2188679T3 (es) 2003-07-01
PL316008A1 (en) 1996-12-23
ATE233008T1 (de) 2003-03-15
BR9506841A (pt) 1997-10-14
TR199501637A2 (tr) 1996-07-21
TW367484B (en) 1999-08-21
CA2182790A1 (en) 1996-06-27
DE69529672D1 (de) 2003-03-27
EP0751494B1 (en) 2003-02-19
JPH08179796A (ja) 1996-07-12
DE69529672T2 (de) 2003-12-18
KR970701410A (ko) 1997-03-17

Similar Documents

Publication Publication Date Title
WO1996019798A1 (en) Sound encoding system
US5749065A (en) Speech encoding method, speech decoding method and speech encoding/decoding method
EP0770989B1 (en) Speech encoding method and apparatus
CN103325377B (zh) 音频编码方法
EP1408484B1 (en) Enhancing perceptual quality of sbr (spectral band replication) and hfr (high frequency reconstruction) coding methods by adaptive noise-floor addition and noise substitution limiting
EP0772186B1 (en) Speech encoding method and apparatus
EP0770990B1 (en) Speech encoding method and apparatus and speech decoding method and apparatus
KR101145578B1 (ko) 동적 가변 와핑 특성을 가지는 오디오 인코더, 오디오 디코더 및 오디오 프로세서
JP4270866B2 (ja) 非音声のスピーチの高性能の低ビット速度コード化方法および装置
EP3125241B1 (en) Method and device for quantization of linear prediction coefficient and method and device for inverse quantization
EP1222659A1 (en) Lpc-harmonic vocoder with superframe structure
US6246979B1 (en) Method for voice signal coding and/or decoding by means of a long term prediction and a multipulse excitation signal
EP4375992A2 (en) Method and device for quantizing linear predictive coefficient, and method and device for dequantizing same
JP2645465B2 (ja) 低遅延低ビツトレート音声コーダ
JP4281131B2 (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
JP3297749B2 (ja) 符号化方法
JP3793111B2 (ja) 分割型スケーリング因子を用いたスペクトル包絡パラメータのベクトル量子化器
JP3878254B2 (ja) 音声圧縮符号化方法および音声圧縮符号化装置
JPH09127987A (ja) 信号符号化方法及び装置
JP4327420B2 (ja) オーディオ信号符号化方法、及びオーディオ信号復号化方法
JP3010655B2 (ja) 圧縮符号化装置及び方法、並びに復号装置及び方法
Li et al. Basic audio compression techniques
JPH0786952A (ja) 音声の予測符号化方法
JP2000132195A (ja) 信号符号化装置及び方法
Galand et al. 7 KBPS—7 MIPS—High Quality ACELP for Cellular Radio

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 95191734.X

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): AU BR CA CN KR MX PL RU SG US VN

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT DE ES FR GB IT NL

WWE Wipo information: entry into national phase

Ref document number: 1995940473

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: PA/a/1996/003416

Country of ref document: MX

WWE Wipo information: entry into national phase

Ref document number: 08676226

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 1995940473

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: CA

WWG Wipo information: grant in national office

Ref document number: 1995940473

Country of ref document: EP