JP2001222297A

JP2001222297A - マルチバンドハーモニック変換コーダ

Info

Publication number: JP2001222297A
Application number: JP2000360848A
Authority: JP
Inventors: John C Hardwick; シー．ハードウィックジョン
Original assignee: Digital Voice Systems Inc
Current assignee: Digital Voice Systems Inc
Priority date: 1999-11-29
Filing date: 2000-11-28
Publication date: 2001-08-17
Also published as: EP1103955A3; US6377916B1; EP1103955A2; AU7174100A

Abstract

(57)【要約】【課題】マルチバンドハーモニック変換コーダが開示さ
れている。【解決手段】音声信号は、その音声信号をデジタル化す
ることによって符号ビットの集合に符号化されて、フレ
ームのシーケンスに分割されたデジタル音声サンプルの
シーケンスが得られ、フレームの各々は複数のデジタル
音声サンプルにスパンしている。音声モデルパラメータ
の集合がフレームについて推定される。音声モデルパラ
メータは、フレームを有声領域と無声領域に分割する音
声パラメータと、少なくともフレームの有声音領域のピ
ッチを表す少なくとも１つのピッチパラメータと、少な
くともフレームの有声音領域のスペクトル情報を表す少
なくとも１つのピッチパラメータとを含んでいる。音声
モデルパラメータは量子化され、パラメータビットが得
られる。フレームも１つまたは２つ以上のサブフレーム
に分割され、その変換係数が計算される。フレームの無
声領域の変換係数は量子化され、変換ビットが得られ
る。パラメータビットと変換ビットは符号化ビットの集
合に組み入れられる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声（speech）信号
やその他のオーディオ信号の符号化（エンコード）と、
復号化（デコード）に関する。

【０００２】

【従来の技術】音声符号化と復号には非常に多数のアプ
リケーションがあり、幅広く研究されている。音声圧縮
(speech compression) としてしばしば言及されている
音声コーディング(speech coding) は、一般に、音声の
品質や明瞭性 (intelligibility) を実質的に低減する
ことなく、音声信号を表現するために必要とされるデー
タレートを低くすることを追求している。音声圧縮手法
は、スピーチコーダ (speech coder) によって実現する
ことが出来る。

【０００３】スピーチコーダは、符号器（エンコーダ）
と復号器（デコーダ）を具備しているものと一般に見ら
れている。符号器は、音声のデジタル表現から圧縮され
たビットストリームを出力しており、この音声のデジタ
ル表現は、マイクロホンによって生成されたアナログ音
声信号を、アナログ−デジタルコンバータ (A/D conver
ter) を用いてサンプルし、およびデジタル化すること
によって生成されている。復号器は、圧縮ビットストリ
ームを、デジタル−アナログコンバータ (D/Aconverte
r) とスピーカを通して再生（プレイバック）するのに
適した、音声のデジタル表現に変換している。多くのア
プリケーションでは、符号器と復号器は物理的に分離さ
れ、ビットストリームは通信チャネルを用いて符号器と
復号器間で伝送されている。別の方法として、ビットス
トリームは、後の復号化とプレイバックに備えて、コン
ピュータまたは他のメモリにストアしておくことも可能
である。

【０００４】スピーチコーダの主要パラメータは、該コ
ーダが達成する圧縮量であり、これは符号器から出力さ
れるビットストリームのビットレートで表されている。
復号器のビットレートは、一般的に、必要とする忠実度
（つまり、音声品質）および採用されるスピーチコーダ
のタイプの関数になっている。スピーチコーダは、タイ
プが異なるごとに、異なるビットレートで動作するよう
に設計されている。10kbps（秒当たりのキロビット数）
以下の中レートから低レートのスピーチコーダは、セル
ラテレホニ、衛星テレホニ、地上モバイル無線、インフ
ライト (in-flight) テレホニなどの、広範囲にわたる
モバイル通信アプリケーションで注目されている。これ
らのアプリケーションでは、典型的には、音声が高品質
であることと、音響雑音（アコースティックノイズ）と
チャネル雑音（例えば、ビット誤差）が原因で起こるア
ーティファクト (artifact) に強いことが要求されてい
る。中速から低速のデータレートで音声をコード化する
周知の手法は、線形予測符号化 (linear predictive co
ding LPC) をベースとしており、ＬＰＣは新しい音声
フレームの各々を、短期および/または長期予測子 (sho
rt and/or long term predictor) を用いて、先行サン
プルから予測することを試みている。予測誤差は、いく
つかの手法の一つを用いて量子化されているのが代表的
であり、その例としてCELP法および/またはマルチパル
ス法の二つがある。線形予測法は、時間的分解能(time
resolution) にすぐれているため、無声(unvoiced) サ
ウンドを符号化するのに役立っている。具体的には、時
間的分解能が破裂音 (plosives) や過渡信号 (transien
ts) にとって好都合であるのは、これらが全体的に、時
間的に、スミア (smear) されないからである。しか
し、線形予測は、有声音サウンドでは問題となることが
よくある。というのは、符号化された音声は、符号化さ
れた信号の不十分な周期のために、荒々しく聞こえた
り、かすれて聞こえたりする傾向があるからである。こ
のことは、特に、低データレートのときにあてはまり、
典型的には、低データレートは長めのフレームサイズを
必要とし、音声の周期的部分（つまり、有声部分）を再
現するのに非効率的な長期予測子を採用しているからで
ある。

【０００５】低から中レートの音声符号化のための、別
の周知の手法として、ボコーダ (vocoder) としてしば
しば参照される、モデルベースのスピーチコーダがあ
る。ボコーダは、通常、短時間インターバルにわたる励
起信号（excitation signal）に対する、あるシステム
の応答として、音声をモデル化している。ボコーダシス
テムの例としては、MELPやLPC-10などの線形予測ボコー
ダ、準同型 (homomorphic) ボコーダ、チャネルボコー
ダ、シヌソイダル変換コーダ (sinusoidal transform c
oder STC)、ハーモニックボコーダ、マルチバンド励起
(multiband excitation ＭＢＥ) ボコーダなどがあ
る。これらのボコーダでは、音声は短いセグメント（典
型的には、1040 ms）に分割され、各セグメントはモデ
ルパラメータの集合によって特徴付けられている。これ
らのパラメータは、セグメントのピッチ、音声状態、ス
ペクトルエンベロープ（spectral envelope；なお、sp
ectralは「スペクトル」と訳す）のように、各音声セグ
メントの少数の基本エレメントを表しているのが代表的
である。ボコーダは、これらのパラメータの各々に対し
て、いくつかの既知の表現のうちの一つを用いている。
例えば、ピッチは、ピッチ周期、基本周波数、または長
期予測遅延で表すことができる。同様に、音声状態（vo
icing state）は、一つまたは二つ以上のボイスングメ
トリックス（voicing metric）、ボイスング確率測度
（voicing probability measure）、あるいは、周期
的エネルギーと確率的 (stochastic) エネルギーとの比
率で表すこともできる。スペクトルエンベロープは、全
極フィルタ応答 (all-pole filter response) で表され
ることがよくあるが、スペクトルマグニチュード(spect
ral magnitude)、ケプストル（cepstral）係数、あるい
は他のスペクトル（spectral）測定量で表すこともでき
る。

【０００６】少数のパラメータを用いて音声セグメント
を表現することができることから、ボコーダのような、
モデルベースのスピーチコーダは、典型的に、低データ
レートで動作させることができる。しかし、モデルベー
スのシステムの質は、基礎となるモデルの正確さに依存
している。従って、これらのスピーチコーダが高い音声
品質を達成するには、高い忠実度のモデルが使用されな
ければならない。

【０００７】音声のあるタイプに対して良好に働くこと
が示されている一つのボコーダとして、ハーモニックボ
コーダ (harmonic vocoder) がある。ハーモニックボコ
ーダは、一般に、有声音声（voiced speech）を正確に
モデル化することができるが、これは、有声音声がある
短時間インターバルにわたって周期的となっているのが
一般であるからである。ハーモニックボコーダは、音声
の各短セグメントを、ピッチ周期と、ある種のボーカル
トラクトレスポンス (vocal tract response)で表して
いる。よく行われていることであるが、これらのパラメ
ータの一つまたは両方は周波数ドメインに変換され、基
本周波数およびスペクトルエンベロープとして表されて
いる。音声セグメントは、基本周波数の倍数の周波数と
スペクトルエンベロープに合致する振幅をもつ、ハーモ
ニック関係の正弦波の系列（シーケンス）を加算するこ
とによって、ハーモニックボコーダで合成されている。
ハーモニックボコーダによると、無声音声（unvoiced
speech）は、疎（スパース）な正弦波集合でモデル化す
ることが容易ではないため、無声音声を扱うことが困難
になることがよくある。初期のハーモニックボコーダ
は、オリジナル音声とハーモニックモデル化音声との差
分から計算された残差信号（residual signal）を通し
て無声音を間接的に処理し、その際、明示的な音声情報
は用いていなかった。この残差信号は、モデルパラメー
タと一緒にコード化されたため、総ビットレートが相対
的に高くなっていた。また、残差信号を除去すると、品
質が相対的に低下していた。別の手法では、フレーム全
体に対して有声/無声判断 (voiced/unvoiced decision)
が一回使用され、有声フレーム（voiced frame）では
モデルパラメータが加算され、無声フレーム（unvoiced
frame）ではスペクトラムが符号化されていた。フレ
ーム全体に対する音声判断（voicing decision）が一
回では不十分であり（音声の多くのセグメントはある領
域では有声化され、他の領域では無声音化される）、音
声エラー（voicing error）に対するシステムのセンシ
チビティ（感度）により、フレーム全体にマイナスの影
響を与えるため、この手法には問題がある。従前のハー
モニック符号化のスキーマは、有声音声（voiced speec
h）ではハーモニック位相を符号化する必要があり、無
声音声（unvoiced speech）ではクリチカルにサンプル
されたスペクトル表現を用いていない、という問題があ
る。このような制約があるため、ハーモニックマグニチ
ュードのような、他のパラメータを符号化するために利
用可能なビット数が制限されている。その結果、フレー
ムサイズは、妥当とする総ビットレートですべてのパラ
メータに使用できる十分なビット数を確保するために、
約30 msに増大されていた。残念ながら、大きなフレー
ムサイズを使用すると、システムの時間的分解能が低下
するため、無声音サウンドと過渡信号に対する性能が制
限されていた。

【０００８】初期のハーモニックボコーダを改良したも
のとして、マルチバンド励起 (Multiband Excitation
ＭＢＥ) 音声モデルとして発表されたものがある。こ
のモデルは、有声音声（voiced speech）のハーモニッ
ク表現を、フレキシブルで周波数依存音声構造と結合す
ることによって、自然に聞こえる無声音声（unvoicedsp
eech）を出力することを可能とし、音響背景雑音（アコ
ースティックバックグランドノイズ）の存在に対してロ
バスト（頑健）なものとしている。このような特性があ
るため、ＭＢＥモデルは、低から中のデータレートでよ
り高品質の音声を出力することが可能になったため、い
くつかの商用モバイル通信アプリケーションで使用され
ている。

【０００９】ＭＢＥ音声モデルは、ピッチを表す基本周
波数、バイナリ値の有声/無声 (voiced/unvoiced V/U
V) 判断あるいは他の音声メトリックスの集合、および
ボーカルトラクトの周波数応答を表すスペクトルマグニ
チュードの集合を用いて、音声のセグメントを表現して
いる。ＭＢＥモデルは、従来のセグメントごとに単一の
V/UV判断を、各々が特定の周波数帯または領域内での音
声状態（voicing state）を表している判断の集合に一
般化している。これによって、各フレームは、有声領域
と無声領域とに分割されている。このように声音モデル
の柔軟性（フレキシビリティ）が増したため、ＭＢＥモ
デルは、ある種の有声摩擦音（voiced fricatives）な
どの、混合有声サウンドを受け入れることが可能とな
り、音響背景雑音で壊されていた音声を正確に表現する
ことが可能となり、ある一つの判断（V/UV判断）におけ
るエラーに対するセンシティビティを低減している。広
範なテストの結果判明したことは、このように、一般化
すると、音声品質と明瞭性が向上することである。

【００１０】ＭＢＥに基づくスピーチコーダの符号器
は、各音声セグメントのモデルパラメータの集合を推定
する。ＭＢＥモデルパラメータには、基本周波数（ピッ
チ周期の逆数）、音声状態（voicing state）を特徴付
けるV/UVメトリックスまたは判断の集合、および、スペ
クトルエンベロープを特徴付けるスペクトルマグニチュ
ードの集合が含まれている。各セグメントのＭＢＥモデ
ルパラメータを推定した後、符号器はパラメータを量子
化してビットフレームを出力する。符号器は、オプショ
ンとして、これらのビットを、誤り訂正/検出符号（err
or correction/detection code）で保護してから、そ
の結果のビットストリームをインタリーブして、対応す
る復号器に送信することができる。

【００１１】復号器は、受信したビットストリームを元
の個々のフレームに変換する。この変換の一部として、
復号器はデインタリービング（インタリーブの逆の処
理）と誤り制御復号化を行って、ビット誤りを訂正また
は検出することができる。その後、復号器は、ビットフ
レームを用いてＭＢＥモデルパラメータを再構成し、復
号器は、そのパラメータを用いて、オリジナル音声に知
覚的に近い音声信号を合成する。復号器は、別々の有声
音成分と無声音成分を合成することができ、その後で有
声音成分と無声音成分を加算して、最終的音声信号を出
力することができる。

【００１２】ＭＢＥベースのシステムでは、符号器は、
スペクトルマグニチュード（スペクトルの大きさ）を用
いて、推定基本周波数の各ハーモニック（高調波）にお
けるスペクトルエンベロープを表している。その後、符
号器は、各ハーモニック周波数のスペクトルマグニチュ
ードを推定する。各ハーモニックは、対応するハーモニ
ックを含んでいる周波数帯が、有声、または無声と宣言
されたかに応じて、有声、あるいは、無声であると指定
される。ハーモニック周波数が有声であると指定された
ときは、符号器は、マグニチュード推定器 (magnitude
estimator) を使用するが、これは、ハーモニック周波
数が無声であると指定されたとき使用されるマグニチュ
ード推定器とは異なっている。しかし、スペクトルマグ
ニチュードは、音声判断とは独立して推定されるのが一
般である。そのために、スピーチコーダは、音声の各ウ
ィンドウサブフレームに対して、高速フーリエ変換 (fa
stFourier transform ＦＦＴ) を計算し、推定された
基本周波数の倍数である周波数領域にわたってエネルギ
ーを平均化する。この手法によると、推定されたスペク
トルマグニチュードから、ＦＦＴサンプリンググリッド
によって導入されるアーティファクト（artifacts；生
成物）を除去するための補正を行うことができる。

【００１３】復号器では、有声ハーモニックと無声ハー
モニックが同定され、別々の有声成分と無声成分は、重
み付きオーバラップ加算手法 (weighted overlap-add m
ethod) を用いて白色信号をフィルタで除去することに
よって合成される。この手法で使用されるフィルタは、
有声であると指定されたすべての周波数帯をゼロにセッ
トし、他方、無声であると指定された領域では、スペク
トルマグニチュードが整合（matching）される。有声成
分（voiced component）は、チューンされたオシレー
タ・バンク (tuned oscillator bank) を用いて合成さ
れるが、有声であると指定された各ハーモニックに一つ
のオシレータが割り当てられている。瞬時の振幅、周波
数および位相は、隣接セグメントで、対応するパラメー
タに合致するように補間される。初期のＭＢＥベースの
システムは、復号器によって受信されたビットに位相情
報を含めていたが、以後のＭＢＥベースのシステムで取
り入れられた一つの重要な改良は、位相合成手法 (phas
e synthesis method) である。この手法によると、復号
器は、有声音声の合成で使用された位相情報を再生成で
きるので、位相情報を明示的に符号器に送信させる必要
がない。音声判断に基づくランダム位相合成は、ＩＭＢ
Ｅ（商標）スピーチコーダの場合と同じように適用可能
である。別の方法として、復号器は、スムージングカー
ネル (smoothing kernel) を、再構成されたスペクトル
マグニチュードに適用すると、ランダムに得られた位相
情報よりも知覚的にオリジナル音声のそれに近い位相情
報を得ることができる。この種の位相再生成手法による
と、他のパラメータに割り当てることができるビット数
が増加するので、フレームサイズが短くなり、時間的分
解能が向上することになる。

【００１４】ＭＢＥベースのボコーダは、ＩＭＢＥ（商
標）スピーチコーダとＡＭＢＥ（登録商標）スピーチコ
ーダを含んでいる。ＡＭＢＥ（登録商標）スピーチコー
ダは、初期のＭＢＥベース手法を改善するために開発さ
れたもので、強化された方法で励起パラメータ（基本周
波数と音声判断）を推定している。この手法は、実際の
音声に見られる変動や雑音をトラッキングする能力が改
善されている。ＡＭＢＥ（登録商標）スピーチコーダ
は、典型的には、16チャネルからなるフィルタバンクと
非線形性を利用してチャネル出力の集合を出力するの
で、励起パラメータはその出力から高信頼に推定するこ
とが可能になっている。チャネル出力は、結合された
後、基本周波数を推定するために処理される。その後、
複数の（例えば、8個）音声バンドの各々内のチャネル
は各音声バンドについて音声判断（または他の音声メト
リックス）を推定するために処理される。

【００１５】上述したＡＭＢＥ（登録商標）スピーチコ
ーダのような、ある種のＭＢＥベースのボコーダは、オ
リジナル音声に非常に近い音声を生成する能力を備えて
いる。特に、有声サウンドは非常にスムーズで、周期的
であり、典型的には、線形予測スピーチコーダに見られ
るような荒々しさ（roughness）やしわがれ（hoarsenes
s）がない。テストで判明したことは、4 Kbps ＡＭＢＥ
（登録商標）スピーチコーダは、２倍のレートで動作す
るＣＥＬＰ型コーダのパフォーマンスに匹敵しているこ
とである。しかし、ＡＭＢＥ（登録商標）ボコーダに
は、無声音サウンドに若干の歪みがまだ見られ、これ
は、過剰な時間拡大（time spreading）によるもので
ある。その原因の一つは、任意の白色雑音信号が無声音
合成で使用され、これがオリジナル音声信号と相関がな
いことによる。これにより、無声音成分が、過渡的サウ
ンドをセグメント内に置くことが防止される。従って、
短アタック（short attack）または小パルスのエネル
ギーがセグメント全体にわたって拡散されるため、再構
成された信号に、「スラッシ (slushy)」なサウンドが
生じることになる。

【００１６】上述した手法は、例えば、Flanagan著「音
声分析、合成および知覚(Speech Analysis, Synthesis
and Perception)」、Springer-Verlag, 1972, pp. 378-
386（周波数ベースの音声分析―合成システムが記載さ
れている）、Jayant他著「波形のデジタルコード化(Dig
ital Coding of Waveforms)」、Prentice-Hall, 1984
（音声コード化全般が記載されている）、米国特許第4,
885,790号（シヌソイダル処理手法が記載されてい
る）、米国特許第5,054,072号（シヌソイダルコード化
手法が記載されている）、Tribolet他著「音声の周波数
ドメインコード化 (Frequency Domain Coding of Speec
h)」、IEEE TASSP, Vol. ASSP-27, No. 5, Oct1979, p
p. 512-530（音声固有ATCが記載されている）、Almeida
他著「有声音声の非静止モデリング(Nonstationary Mod
eling of Voiced Speech)」、IEEE TASSP, Vol. ASSP-3
1, No. 3, June 1983, pp. 664-677（ハーモニックモデ
リングと関連コーダが記載されている）、Almeida他著
「可変周波数合成：改良ハーモニックコーディング方式
(Variable-Frequency Synthesis: An Improved Harmoni
cCoding Scheme)」、IEEE Proc. ICASSP 84, pp. 27.5.
1-27.5.4（多項有声音合成方法が記載されている）、Ro
drigues他著「8 KBITS/SECのハーモニックコード化(Har
monic Coding at 8 KBITS/SEC)」、Proc. ICASSP 87, p
p. 1621-1624（ハーモニックコーディング方法が記載さ
れている）、Quatieri他著「シヌソイダル表現に基づく
音声変換(Speech Transformation Based on a Sinusoid
al Representation)」、IEEE TASSP, Vol. ASSP-34, N
o. 6, Dec. 1986, pp. 1449-1986（シヌソイダル表現に
基づく分析−合成手法が記載されている）、McAulay他
著「音声のシヌソイダル表現に基づく中レートコード化
(Mid-Rate Coding Based ona Sinusoidal Representati
on of speech)」、Proc. ICASSP 85, pp. 945-948,Tamp
a, FL, March 26-29, 1985（シヌソイダル変換スピーチ
コーダが記載されている）、Griffin著「マルチバンド
励起ボコーダ(Multiband Excitation Vocoder)」、Ph.
D. Thesis, M.I.T, 1988（ＭＢＥ音声モデルおよび8000
bps ＭＢＥスピーチコーダが記載されている）、Hardw
ick著「4.8 kbpsマルチバンド励起スピーチコーダ(A 4.
8 kbps Multi-Band Excitation Speech Coder)」、S.M.
Thesis, M.I.T, May 1988（4800 bps ＭＢＥスピーチ
コーダが記載されている）、Hardwick著「デュアル励起
音声モデル(The Dual Excitation Speech Model)」、P
h.D. Thesis, M.I.T, 1992（デュアル励起スピーチコー
ダが記載されている）、Princen他著「時間ドメインエ
リアシングキャンセレーションに基づくフィルタバンク
設計を使用したサブバンド/変換コーディング(Suband/T
ransform Coding Using Filter Bank Designs Based on
Time Domain Aliasing Cancellation)」、IEEE Proc.
ICASSP '87, pp. 2161-2164（TDAC原理を使用した改良
コサイン変換が記載されている）、Telecommunications
Industry Association (TIA)「APCO Project 25 ボコ
ーダの説明(APCO Project 25 Vocoder Descriptio
n)」、Version1.3, July 15, 1993, IS102BABA（APCO P
roject 25標準の7.2 kbps IＭＢＥ（商標）スピーチコ
ーダが記載されている）に記載されているが、これらは
すべて、引用により本明細書に組み込まれる。

【００１７】

【発明が解決しようとする課題】本発明は、音声信号や
他の信号用の改良コーディング技術を提供している。こ
れらの技術によれば、有声音サウンド用のマルチバンド
ハーモニックボコーダは、トランジェント(transient
s；過渡信号) の処理能力が改善された、無声音サウン
ドをコーディングする新規方法と結合されている。その
結果、低データレートでの音声品質が改善されている。
これらの技術は、応用範囲が広く、そのひとつとして、
セルラテレホニ、デジタル無線、衛星通信などのアプリ
ケーションを含む、デジタル音声コミュニケーションが
ある。

【００１８】

【課題を解決するための手段】一般的なアスペクト（視
点）において、上記技術は、音声信号を符号化ビットの
集合に符号化することを特徴としている。音声信号はデ
ジタル化され、一連のフレームに分割されるデジタル音
声サンプルのシーケンスが出力され、フレームの各々
は、複数のデジタルサンプルにわたって（スパンして）
いる。そのあと、音声モデルパラメータの集合がフレー
ムについて推定される。音声モデルパラメータは、フレ
ームを有声領域と無声領域に分割する音声パラメータ、
少なくともフレームの有声領域のピッチを表している少
なくとも一つのピッチパラメータ、および少なくともフ
レームの有声領域のスペクトル情報を表しているスペク
トルパラメータを含んでいる。音声モデルパラメータは
量子化され、パラメータビットとして出力される。

【００１９】フレームも、一つまたは二つ以上のサブフ
レームに分割され、サブフレームを表すデジタル音声サ
ンプルについて変換係数が計算される。フレームの無声
領域の変換係数は量子化され、変換ビットが出力され
る。パラメータビットと変換ビットは符号化ビットの集
合に組み入れられる。

【００２０】実施形態は、以下に説明する特徴の一つま
たは二つ以上を含むことが可能である。例えば、フレー
ムが周波数バンドに分割され、音声パラメータがフレー
ムの周波数バンドに対するバイナリ音声判断を含んでい
るときは、有声領域と無声領域に分割されると、少なく
とも一つの周波数バンドは有声であると指定され、一つ
の周波数バンドは無声であると指定されることになる。
ある種のフレームでは、周波数バンドはすべてが有声で
あると指定されるか、すべてが無声であると指定される
ことがある。

【００２１】フレームのスペクトルパラメータには、フ
レームの音声パラメータとは独立した形で、有声領域と
無声領域の両方で推定された一つまたは二つ以上のスペ
クトルマグニチュードの集合を含めることもできる。フ
レームのスペクトルパラメータが一つまたは二つ以上の
スペクトルマグニチュードの集合を含んでいるときは、
これらは、以下のようにして、量子化することができ
る。すなわち、対数などの圧伸演算(companding opera
tion)を用いてすべてのスペクトルマグニチュードの集
合を圧伸し圧伸スペクトルマグニチュードの集合を出力
し、フレーム内の圧伸スペクトルマグニチュードの最終
集合を量子化し、フレーム内の量子化された圧伸スペク
トルマグニチュードの最終集合と、先行フレームからの
圧伸スペクトルマグニチュードの量子化された集合の間
で補間して補間スペクトルマグニチュードを生成し、圧
伸スペクトルマグニチュードの集合と補間スペクトルマ
グニチュードとの差分を決定し、スペクトルマグニチュ
ード間の決定された差分を量子化する。スペクトルマグ
ニチュードは、以下のようにして計算することができ
る。すなわち、デジタル音声サンプルをウィンドウ処理
してウィンドウ処理された音声サンプルを出力し、ウィ
ンドウ処理された音声サンプルのＦＦＴを計算してＦＦ
Ｔ係数を出力し、ピッチパラメータに対応する基本周波
数の倍数前後で、ＦＦＴ係数のエネルギーを加算し、ス
ペクトルマグニチュードを加算エネルギーの平方根とし
て計算する。

【００２２】変換係数は、クリティカルサンプリングお
よび完全再構成特性（perfect reconstruction propert
ies）を備えた変換を用いて計算することができる。例
えば、変換係数は、デジタル音声サンプルのオーバラッ
プウィンドウを用いて近隣サブフレームの変換係数を計
算するオーバラップ変換 (overlapped transform) を用
いて計算することができる。

【００２３】変換係数を量子化して変換ビットを出力す
ることには、サブフレームのスペクトルエンベロープを
モデルパラメータから計算し、複数の候補係数の集合を
形成し、各々の候補係数の集合は一つまたは二つ以上の
候補ベクトルを結合し、結合候補ベクトルにスペクトル
エンベロープを掛けて形成されるようにし、変換係数の
最も近い候補係数の集合を複数の候補係数の集合から選
択し、選択した候補係数の集合のインデックスを変換ビ
ットに組み入れることを含めることが可能である。各候
補ベクトルは、既知プロトタイプベクトルまでのオフセ
ットと複数の符号ビットから形成することができ、この
場合、各符号ビットは候補ベクトルの一つまたは二つ以
上の要素の符号を変更するようになっている。選択され
る候補係数の集合は、複数の候補係数集合のうち、変換
係数との最も高い相関をもつ集合にすることができる。

【００２４】変換係数を量子化して変換ビットを出力す
ることには、さらに、サブフレームの選択した候補ベク
トルの最良スケール因子（best scale factor）を計
算し、フレーム内のサブフレームのスケール因子を量子
化してスケール因子ビットを出力し、スケール因子ビッ
トを変換ビットに組み入れることを含めることが可能で
ある。フレーム内の異なるサブフレームのスケール因子
は、ジョイント量子化してスケール因子ビットを得るこ
とができる。このジョイント量子化には、ベクトル量子
化器が使用できる。

【００２５】フレームシーケンス内の、あるフレームの
符号化ビット集合に含まれるビットの数は、フレームシ
ーケンス内の別フレームの符号化ビット集合に含まれる
ビットの数と異なったものにすることができる。この目
的のために、符号化には、符号化ビット集合に含まれる
ビットの数を選択し（この場合、その数はフレームごと
に変化させることができる）、選択したビット数をパラ
メータビットと変換ビットの間で割り当てることを含め
ることができる。フレームの符号化ビット集合に含まれ
るビットの数を選択することは、少なくともその一部
は、フレーム内のスペクトル情報を表すスペクトルマグ
ニチュード・パラメータと、先行フレーム内のスペクト
ル情報を表す先行スペクトルマグニチュード・パラメー
タとの間にどの程度の変更があるかに基づいて行うこと
ができる。変更の度合が大きいときは多数のビットを優
先し、変更の度合が小さいときは少数のビットを優先す
ることができる。

【００２６】符号化手法は、符号器（エンコーダ）で実
現することができる。符号器は、デジタル音声サンプル
をフレームのシーケンスに分割する分割エレメントであ
って、フレームの各々が複数のデジタル音声サンプルを
含んでいるものと、フレームの音声モデルパラメータの
集合を推定する推定器とで構成することができる。音声
モデルパラメータは、フレームを有声領域と無声領域に
分割する音声パラメータ、少なくともフレームの有声領
域のピッチを表す少なくとも一つのピッチパラメータ、
および少なくともフレームの有声領域のスペクトル情報
を表すスペクトルパラメータを含むことが可能である。
符号器には、モデルパラメータを量子化してパラメータ
ビットを出力するパラメータ量子化器、フレームを一つ
または二つ以上のサブフレームに分割し、サブフレーム
を表すデジタル音声サンプルの変換係数を計算する変換
係数生成器（ジェネレータ）、フレームの無声領域内の
変換係数を量子化して変換ビットを出力する変換係数量
子化器、およびパラメータビットと変換ビットを結合し
て符号化ビットの集合を出力する結合器を含めることも
可能である。符号器のエレメントは、一つでも、二つ以
上でも、あるいは全部を、デジタル信号プロセッサで実
現することができる。

【００２７】別の一般的なアスペクトでは、デジタル音
声サンプルのフレームは、符号化ビットの集合からモデ
ルパラメータビットを抽出し、デジタル音声サンプルの
フレームを表すモデルパラメータを抽出したモデルパラ
メータビットから再構成することによって、符号化ビッ
トの集合から復号化（デコード）される。モデルパラメ
ータは、フレームを有声領域と無声領域に分割する音声
パラメータ、少なくともフレームの有声領域のピッチ情
報を表す少なくとも一つのピッチパラメータ、および少
なくともフレームの有声領域のスペクトル情報を表すス
ペクトルパラメータを含んでいる。フレームの有声音声
サンプルは、再構成モデルパラメータから再現される。

【００２８】変換係数ビットも、符号化ビットの集合か
ら抽出される。フレームの無声領域を表す変換係数は、
抽出した変換係数ビットから再構成される。再構成され
た変換係数は、逆変換され、逆変換サンプルが出力さ
れ、フレームの無声音声は、その逆変換サンプルから出
力される。フレームの有声音声とフレームの無声音声は
結合され、復号化されたデジタル音声サンプルのフレー
ムが出力される。

【００２９】実施形態には、以下に説明する特徴の一つ
または二つ以上を含めることができる。例えば、フレー
ムが周波数バンドに分割され、音声パラメータがフレー
ムの周波数バンドのバイナリ音声判断を含んでいるとき
は、有声領域と無声領域に分割すると、少なくとも一つ
の周波数バンドは有声であると指定され、一つの周波数
バンドは無声音であると指定される。

【００３０】フレームのピッチパラメータとスペクトル
パラメータには、一つまたは二つ以上の基本周波数およ
び一つまたは二つ以上のスペクトルマグニチュードの集
合を含めることができる。フレームの有声音声サンプル
は、スペクトルマグニチュードから計算された合成位相
情報を用いて得ることができ、少なくともその一部は、
ハーモニックオシレータ・バンクから出力させることが
できる。例えば、有声音声サンプルの低周波数部分は、
ハーモニックオシレータのバンクから出力させ、有声音
声サンプルの高周波数部分は、補間とともに逆（インバ
ース）ＦＦＴを用いて出力することができる。その場
合、補間は、少なくともその一部がフレームのピッチ情
報に基づいて行われる。

【００３１】復号化（デコード）には、さらに、フレー
ムをサブフレームに分割し、再構成変換係数をグループ
に分け、再構成変換係数の各グループをフレーム内の異
なるサブフレームに関連付け、グループ内の再構成変換
係数を逆変換して対応するサブフレームに関連する逆変
換サンプルを出力し、連続するサブフレームに関連する
逆変換サンプルをオーバラップし、加算してフレームの
無声音声を出力することを含めることができる。逆変換
サンプルは、クリティカルサンプルおよび完全再構成特
性を備えたオーバラップ変換の逆を用いて計算すること
ができる。

【００３２】再構成変換係数は、再構成モデルパラメー
タからスペクトル・エンベロープを計算し、変換係数ビ
ットから一つまたは二つ以上の候補ベクトルを再構成
し、候補ベクトルを結合し、結合した候補ベクトルにス
ペクトルエンベロープを掛けることによって再構成変換
係数を形成することにより、変換係数ビットから出力す
ることができる。候補ベクトルは、既知プロトタイプベ
クトルまでのオフセットと複数の符号ビットの使用によ
って変換係数ビットから再構成することができ、この場
合、各符号ビットは候補ベクトルの一つまたは二つ以上
の要素の符号を変更するようになっている。

【００３３】復号化手法は、復号器（デコーダ）で実現
することができる。復号器は、符号化ビットの集合から
モデルパラメータビットを抽出するモデルパラメータ抽
出器と、デジタル音声サンプルのフレームを表すモデル
パラメータを、抽出したモデルパラメータビットから再
構成するモデルパラメータ再構成器とで構成することが
できる。モデルパラメータには、フレームを有声領域と
無声領域に分割する音声パラメータ、少なくともフレー
ムの有声領域のピッチ情報を表す少なくとも一つのピッ
チパラメータ、および少なくともフレームの有声領域の
スペクトル情報を表すスペクトルパラメータを含めるこ
とができる。復号器は、フレームの有声音声サンプルを
再構成モデルパラメータから出力する有声音声シンセサ
イザと、符号化ビットの集合から変換係数ビットを抽出
する変換係数抽出器と、フレームの無声領域を表す変換
係数を、抽出した変換係数ビットから再構成する変換係
数再構成器と、再構成変換係数を逆変換して逆変換サン
プルを出力する逆変換器と、フレームの無声音声を逆変
換サンプルから合成する無声音声シンセサイザと、フレ
ームの有声音声とフレームの無声音声を結合して復号化
デジタル音声サンプルのフレームを出力する結合器とで
構成することも可能である。復号器のエレメントは、一
つでも、二つ以上でも、あるいは全部をデジタル信号プ
ロセッサで実現することができる。

【００３４】さらに別の一般的なアスペクトでは、音声
パラメータ、フレームのピッチを表す少なくとも一つの
ピッチパラメータ、およびフレームのスペクトル情報を
表すスペクトルパラメータを含む音声モデルパラメータ
は推定され、量子化されてパラメータビットが出力され
る。次に、フレームは一つまたは二つ以上のサブフレー
ムに分割され、サブフレームを表すデジタル音声サンプ
ルの変換係数は、クリティカルサンプリングおよび完全
再構成特性を備えた変換を用いて計算される。変換係数
の少なくとも一部は量子化されて変換ビットが出力さ
れ、この変換ビットはパラメータビットと一緒に符号化
ビットの集合に組み入れられる。

【００３５】さらに別の一般的なアスペクトでは、デジ
タル音声サンプルのフレームは、符号化ビットの集合か
らモデルパラメータビットを抽出し、デジタル音声サン
プルのフレームを表すモデルパラメータを、抽出したモ
デルパラメータビットから再構成し、再構成したモデル
パラメータを用いてフレームの有声音声サンプルを出力
することによって、符号化ビットの集合から復号化され
る。さらに、変換係数ビットも、符号化ビットの集合か
ら抽出されて変換係数が再構成され、これは逆変換され
て、逆変換サンプルが出力される。逆変換サンプルは、
クリティカルサンプリングおよび完全再構成特性を備え
たオーバラップ変換の逆を用いて出力される。フレーム
の無声音声は逆変換サンプルから出力され、有声音声と
結合され、復号化されたデジタル音声サンプルのフレー
ムが出力される。

【００３６】さらに別の一般的なアスペクトでは、音声
信号は、音声信号をデジタル化してデジタル音声サンプ
ルのシーケンスを出力し、それを各々が複数のサンプル
にスパンするフレームのシーケンスに分割することによ
って、符号化ビットの集合から符号化される。音声モデ
ルパラメータの集合はフレームについて推定される。音
声モデルパラメータは、音声パラメータ、フレームのピ
ッチを表す少なくとも一つのピッチパラメータ、および
フレームのスペクトル情報を表すスペクトルパラメータ
を含み、スペクトルパラメータは、フレームの音声パラ
メータとは独立した形で推定された一つまたは二つ以上
のスペクトルマグニチュードの集合を含んでいる。モデ
ルパラメータは量子化され、パラメータビットが出力さ
れる。

【００３７】フレームは一つまたは二つ以上のサブフレ
ームに分割され、変換係数はサブフレームを表すデジタ
ル音声サンプルについて計算される。変換係数の少なく
とも一部は量子化されて、変換ビットが出力され、これ
らはパラメータビットと一緒に符号化ビットの集合に組
み入れられる。

【００３８】さらに別の一般的なアスペクトでは、デジ
タル音声サンプルのフレームは符号化ビットの集合から
復号化される。モデルパラメータビットは符号化ビット
の集合から抽出され、抽出したモデルパラメータからの
デジタル音声サンプルのフレームを表すモデルパラメー
タが再構成される。モデルパラメータは音声パラメー
タ、フレームのピッチ情報を表す少なくとも一つのピッ
チパラメータ、およびフレームのスペクトル情報を表す
スペクトルパラメータを含んでいる。有声音声サンプル
は、再構成モデルパラメータと、スペクトルマグニチュ
ードから計算された合成位相情報とを用いて、フレーム
に対して出力される。

【００３９】さらに、変換係数ビットも、符号化ビット
の集合から抽出され、変換係数は抽出した変換係数ビッ
トから再構成される。再構成された変換係数は逆変換さ
れ、逆変換サンプルが出力される。最後に、フレームの
無声音声は逆変換サンプルから出力され、有声音声と結
合されて、復号化されたデジタル音声サンプルのフレー
ムが出力される。

【００４０】本発明のその他の利点は、添付図面を含む
以下の説明および特許請求の範囲に記載されている通り
である。

【００４１】

【発明の実施の形態】図１を参照して説明すると、符号
器（エンコーダ）１００は、例えば、マイクロホンやア
ナログ−デジタルコンバータを用いて出力可能なデジタ
ル音声（または他の音響信号）を処理する。符号器はこ
のデジタル音声信号を短フレームで処理し、この短フレ
ームはさらに一つまたは二つ以上のサブフレームに分割
されている。一般的に、モデルパラメータは、サブフレ
ームごとに、符号器と復号器によって推定され、処理さ
れる。一実施形態では、各20 msフレームは二つの10 ms
サブフレームに分割され、フレームはサンプリングレー
トが8 kHzの160個のサンプルを含んでいる。

【００４２】符号器は、デジタル音声のパラメータ分析
（parameter analysis）１１０を行い、フレームの各
サブフレームに対してＭＢＥモデルパラメータ（ＭＢＥ
model parameter）を推定する。ＭＢＥモデルパラメ
ータは、サブフレームの基本周波数（ピッチ周期の逆
数）、サブフレームの音声状態を特徴付けるバイナリ有
声/無声 ("V/UV") 判断の集合、およびサブフレームの
スペクトルエンベロープを特徴付けるスペクトルマグニ
チュードの集合を含んでいる。

【００４３】図２を参照して説明すると、ＭＢＥパラメ
ータ分析１１０は、デジタル音声１０５を処理し、基本
周波数の推定（estimate fundamental frequency）２
００と、音声判断の推定（estimate voicing descisio
ns）２０５とが含まれている。また、このパラメータ分
析１１０には、デジタル入力音声へのハミング（Hammin
g）ウィンドウのようなウィンドウ関数の適用(applying
a window function)２１０することも含まれている。
ウィンドウ関数２１０の出力データはＦＦＴ２１５によ
ってスペクトル係数に変換される。スペクトル係数は推
定された基本周波数と一緒に処理されて、スペクトルマ
グニチュード２２０が推定される。推定された基本周波
数、音声判断、およびスペクトルマグニチュードは結合
２２５され、各サブフレームのＭＢＥモデルパラメータ
が出力される。

【００４４】パラメータ分析１１０は、非線形オペレー
タをもつフィルタバンクを用いて各サブフレームの基本
周波数と音声判断を推定することができる。サブフレー
ムはN個の周波数バンド(N=8 が代表的)に分割され、バ
ンドごとに一つのバイナリ音声判断が推定される。バイ
ナリ音声判断は、関心のあるバンド幅（8 KHzサンプリ
ングレートのとき約4kHz）をカバーするN個の周波数バ
ンドごとの音声状態（つまり、1 = 有声（voiced）、0
= 無声（unvoiced））を表している。これらの励起パラ
メータの推定は米国特許第5,715,365号と第5,826,222号
に詳しく説明されているが、その内容は引用により本明
細書に含まれている。フレーム全体が無声音(unvoiced)
であると音声判断が示しているときは、推定された基本
周波数を破棄し、デフォルトの無声音基本周波数で置き
かえることによって、ビットが節減される。なお、デフ
ォルト無声音基本周波数はサブフレームレートの約半分
（つまり、200 Hz）にセットされているのが代表的であ
る。

【００４５】励起パラメータが推定されると、次に、符
号器は、各サブフレームのスペクトルマグニチュードの
集合を推定する。フレームごとに二つのサブフレームが
あるので、二つのスペクトルマグニチュード集合がフレ
ームごとに推定される。サブフレームのスペクトルマグ
ニチュードは、155ポイントのハミングウィンドウのよ
うな、短オーバラップウィンドウを用いて、音声信号を
ウィンドウ処理し、そのウィンドウ処理された信号に対
してＦＦＴ（256ポイントが代表的）を計算することに
よって推定される。次に、推定された基本周波数の各ハ
ーモニック（高調波）前後のエネルギーが加算され、そ
の和の平方根が該ハーモニックのスペクトルマグニチュ
ードと指定される。スペクトルマグニチュードを推定す
る特定の方法は米国特許第5,754,974号に記載されてい
るが、その内容は引用により本明細書に含まれている。

【００４６】２サブフレームの各々の音声判断、基本周
波数、およびスペクトルマグニチュードの集合はフレー
ムのモデルパラメータを形成する。しかし、モデルパラ
メータとその推定のために使用される方法は、さまざま
な変形が可能である。そのような変形として、代替また
は追加モデルパラメータを使用すること、あるいはパラ
メータが推定されるときのレートを変更することがあ
る。一つの重要な変形では、音声判断と基本周波数はフ
レームごとに一度だけ推定される。例えば、これらのパ
ラメータは、カレントフレームの最終サブフレームが現
れたのと同時に推定し、その後、カレントフレームの最
初のサブフレームが現れたとき補間することができる。
基本周波数の補間は、カレントフレームと直前のフレー
ム（「先行フレーム」）の両方の、最終サブフレームの
推定基本周波数間の幾何平均値を計算することで行うこ
とができる。音声判断の補間は、カレントフレームと先
行フレームの、最終サブフレームの推定判断の間で論理
ＯＲ演算を行い、有声を無声に優先させることで行うこ
とができる。

【００４７】図１に戻って説明すると、パラメータ分析
１１０を行った後、符号器は量子化ブロック１１５を用
いて、推定モデルパラメータとデジタル音声を処理し、
各フレームの量子化ビットを出力する。符号器は、量子
化ＭＢＥモデルパラメータを用いてフレームの有声領域
を表現し、別々のＭＣＴ係数を用いてフレームの無声領
域を表現する。その後、符号器は、効率的なジョイント
量子化手法を用いてフレーム全体のモデルパラメータと
係数をジョイント量子化する。

【００４８】モデルパラメータを量子化するには、さま
ざまな量子化方法が使用できる。例えば、いくつかの方
法と併用して成功している手法では、連続するサブフレ
ーム間の励起またはスペクトルパラメータをジョイント
量子化している。そのような方法として、米国特許出願
第08/818,130号と第08/818,137号に開示されているデュ
アルサブフレームスペクトル量子化があるが、その内容
は引用により本明細書に含まれている。基本周波数と音
声判断のような、ある種のモデルパラメータはサブフレ
ーム間で補間すると、符号化の必要がある情報量が低減
されることになる。

【００４９】次に、図３を参照して説明すると、量子化
ブロック１１５には、量子化有声音情報を用いて、ＭＢ
ＥモデルパラメータビットとＭＣＴ係数ビットの間で使
用可能ビット数を配分するビットアロケーションエレメ
ント３００が含まれている。ＭＢＥモデルパラメータ量
子化器３０５は、割り振られたビット数を用いて、フレ
ームの第１サブフレームのＭＢＥモデルパラメータと、
そのフレームの第２サブフレームのＭＢＥモデルパラメ
ータを量子化し、量子化モデルパラメータビット３２０
を出力する。量子化モデルパラメータビット３２０は、
V/UVエレメント３２５によって処理されて、有声音情報
が構築されるとともに、フレームの有声および/または
無声領域が特定される。量子化モデルパラメータビット
３２０は、スペクトルエンベロープエレメント３３０に
よっても処理され、各サブフレームのスペクトルエンベ
ロープが作成される。エレメント３３５は、V/UVエレメ
ントの出力を用いてサブフレームのスペクトルエンベロ
ープをさらに処理し、スペクトルエンベロープを有声領
域でゼロにセットする。

【００５０】量子化ブロックのエレメント３４０は、デ
ジタル音声入力を受け取り、それをサブフレームおよび
/またはサブフレームのサブフレームに分割する。各サ
ブフレームまたはサブフレームのサブフレームは、修正
コサイン変換 (modified cosine transform ＭＣＴ)
３４５によって変換され、ＭＣＴ係数が出力される。

【００５１】ＭＣＴ係数量子化器３５０は、割り振られ
たビット数を用いて、無声領域のＭＣＴ係数を量子化す
る。ＭＣＴ係数量子化器３５０は、エレメント３５５に
よって構築された候補ベクトルを用いてこれを行う。

【００５２】図４を参照して説明すると、量子化は、手
続き（プロシージャ）４００に従って進めることがで
き、そこでは、符号器は最初に有声/無声判断を量子化
する（ステップ４０５）。例えば、米国特許出願第08/9
85,262号に記載されているベクトル量子化方法を使用す
ると、少数のビット（3-8が代表的）を用いて音声判断
をジョイント量子化することができる。なお、上記特許
出願の内容は引用により本明細書に含まれている。別の
方法として、可変長コード化を音声判断に適用すると、
全体が無声音であるフレームを表すために１ビットが使
用され、フレームが少なくとも一部有声であるときだけ
追加音声ビットが使用されるので、パフォーマンスが向
上する。音声判断が最初に量子化されるのは、これらが
フレームの残余コンポーネントのビットアロケーション
に影響を与えるからである。

【００５３】フレームの全体が有声でないとすると（ス
テップ４１０）、符号器は次のビット（6-16が代表的）
を用いて、サブフレームの基本周波数を量子化する（ス
テップ４１５）。一実施形態では、二つのサブフレーム
からの基本周波数は米国特許出願第08/985,262号に記載
されている方法を用いてジョイント量子化される。別の
実施形態は、主に一つの基本周波数がフレームごとに推
定されるとき使用されるものであるが、この実施形態で
は、基本周波数は、約19乃至123サンプルのピッチレン
ジにわたって、スカラー対数均一量子化器 (scalar log
uniform quantizer) を用いて量子化される。しかし、
フレームの全体が無声音であるときは、デフォルトの無
声音基本周波数が符号器と復号器の両方に分かっている
ので、基本周波数を量子化するためにビットは使用され
ない。

【００５４】次に、符号器は、フレームの２サブフレー
ムに対するスペクトル大きさの集合を量子化する（ステ
ップ４２０）。例えば、符号器は、対数圧伸を用いて、
これらを対数（ｌｏｇ）ドメインに変換できるので、予
測、ブロック変換、およびベクトル量子化を組み合わせ
て使用することができる。一つの方法は、最初に第２ｌ
ｏｇスペクトルマグニチュード（つまり、第２サブフレ
ームのｌｏｇスペクトルマグニチュード）を量子化し
（ステップ４３０）、その後、カレントフレームと先行
フレームの両方の量子化第２ｌｏｇスペクトルマグニチ
ュード間に補間することである（ステップ４３５）。こ
れらの補間振幅は、次に、第１ｌｏｇスペクトルマグニ
チュード（つまり、第１フレームのｌｏｇスペクトルマ
グニチュード）から減算され（ステップ４４０）、その
差分が量子化される（ステップ４４５）。この量子化差
分と、先行フレームとカレントフレームの両方からの第
２ｌｏｇスペクトルマグニチュードの両方を使用する
と、復号器は補間を繰り返し、差分を加算するので、カ
レントフレームの量子化第1ｌｏｇスペクトルマグニチ
ュードを再構成することができる。

【００５５】第２ｌｏｇスペクトルマグニチュードは、
図５に示すプロシージャ５００に従って量子化すること
ができる（ステップ４３０）。このプロシージャでは、
予測ログ大きさの集合が推定され、予測大きさが実際の
大きさから減算され、その結果の予測残余（つまり、差
分）の集合が量子化されている。プロシージャ５００に
よれば、予測されたｌｏｇ振幅は、先行フレームから
の、以前に量子化された第２ｌｏｇスペクトルマグニチ
ュードを補間し、再サンプリングすることによって形成
される（ステップ５０５）。線形補間は、先行フレーム
とカレントフレームの第２サブフレームに対する基本周
波数間の比率の倍数で再サンプリングして適用される。
この補間により、２サブフレーム間の基本周波数の変化
が補償される。

【００５６】予測されたｌｏｇ振幅が単位値（unity）
よりも小の値（0.65が代表的）でスケーリングされた後
（ステップ５１０）、平均値が除去されてから（ステッ
プ５１５）、第２ｌｏｇスペクトルマグニチュードから
減算される（ステップ５２０）。その結果の予測残差
（prediction residual）は少数のブロック（4個が代
表的）に分割される（ステップ５２５）。スペクトルマ
グニチュードの数は予測残余の数と等しくなっている
が、基本周波数で除したバンド幅（3.5 4kHzが代表
的）に応じてフレーム間で変化する。典型的な人間の音
声では、基本周波数は、約60 Hzと400 Hzの間で変化す
るので、スペクトルマグニチュードの数は同じように広
いレンジ（9 56が代表的）にわたって変化させること
ができ、量子化器は、その変化を考慮に入れる。

【００５７】予測残差が複数のブロックに分割された後
（ステップ５２５）、離散コサイン変換 (Discrete Cos
ine Transform DCT) が各ブロックの予測残差に適用さ
れる（ステップ５３０）。各ブロックのサイズは、サブ
フレームの対（ペア）に対するスペクトルマグニチュー
ドの数のフラクションとして設定されるが、ブロックサ
イズは、低周波数から高周波数に増加して行くのが代表
的であり、ブロックサイズの総和は、対のサブフレーム
に対するスペクトルマグニチュードの数に等しくなって
いる（４ブロックでは、0.2, 0.225, 0.275, 0.3が代表
的なフラクションである）。４ブロックの各々からの最
初の２エレメントは8エレメント予測残差ブロック平均
(prediction residual block average PRBA) ベクトル
を形成するために使用される（ステップ５３５）。次
に、ＰＲＢＡベクトルについてDCTが計算される（ステ
ップ５４０）。最初（つまり、ＤＣ）の係数はゲイン項
とみなされ、代表例として4-7ビットスカラ量子化器を
用いて別々に量子化される（ステップ５４５）。変換Ｐ
ＲＢＡベクトル中の残りの７エレメントが次にベクトル
量子化され（ステップ５５０）、そこでは、2-3パート
分割ベクトル量子化器が広く使用されている（典型的に
は、最初の３エレメントの９ビットに最後の４エレメン
トの７ビットを加える）。

【００５８】PRBAベクトルが上記のように量子化される
と、次に、4個のDCTブロックの各々からの残りの上位係
数 (higher order coefficient HOC) が量子化される
（ステップ５５５）。代表例として、どのブロックから
も量子化されるＨＯＣは4個までである。追加のＨＯＣ
があれば、それはゼロにセットされ、符号化されない。
ＨＯＣの量子化は、ブロック当たり約4ビットを使用す
るベクトル量子化器で行われるのが代表的である。

【００５９】ＰＲＢＡとＨＯＣエレメントが上記のよう
に量子化されると、その結果のビットはカレントフレー
ムの符号器出力ビットに加えられ（ステップ５６０）、
逆のステップがとられて、復号器から見たときの量子化
スペクトル大きさが符号器で計算される（ステップ５６
５）。符号器は、これらの量子化スペクトルマグニチュ
ードを格納しておき（ステップ５７０）、カレントフレ
ーム第１ｌｏｇスペクトルマグニチュードを量子化する
ときに使用されるようにし、後続フレームは符号器と復
号器の両方で利用できる情報だけを使用する。さらに、
これらの量子化スペクトルマグニチュードは、非量子化
第２ｌｏｇスペクトルマグニチュードから減算すること
ができ、もっと正確な量子化が必要であればそのスペク
トル誤差の集合をさらに量子化することができる。第２
ｌｏｇスペクトルマグニチュードを量子化する方法は、
米国特許第5,226,084号および米国特許出願第08/818,13
0号と第08/818,137号に詳しく説明されているが、その
内容は引用により本明細書に含まれている。

【００６０】図６を参照して説明すると、第１ｌｏｇス
ペクトルマグニチュードの量子化はプロシージャ６００
に従って行われ、そこでは、カレントフレームと先行フ
レームの両方の量子化第２ｌｏｇスペクトルマグニチュ
ード間に補間が行われる。代表例として、少数の異なる
候補補間スペクトルマグニチュードは、ペアの負でない
重みとゲイン項からなる３つのパラメータを用いて形成
される。候補補間スペクトルマグニチュードの各々は非
量子化第１ｌｏｇスペクトルマグニチュードと比較さ
れ、得られる二乗誤差が最小であるものが最良候補とし
て選択される。

【００６１】異なる候補補間スペクトルマグニチュード
は、最初に、３サブフレーム間の基本周波数の変化を考
慮に入れて、カレントフレームと先行フレームの両方
の、以前に量子化された第２ｌｏｇスペクトルマグニチ
ュードを補間し、再サンプリングすることによって形成
される（ステップ６０５）。次に、候補補間スペクトル
マグニチュードの各々は、再サンプリングされた二つの
集合の各々を、二つの重みの一方だけスケーリングし
（ステップ６１０）、スケーリングされた集合を加え
（ステップ６１５）、定数のゲイン項を加算する（ステ
ップ６２０）によって形成される。実際には、計算され
る異なる候補補間スペクトルマグニチュードは２の小さ
なべき乗に等しくなっており（例えば、2, 4, 8, 16,
または32）、重みとゲイン項はそのサイズのテーブルに
格納されている。各集合は、それと、量子化される第１
ｌｏｇスペクトルマグニチュードとの二乗誤差を計算す
ることによって評価される（ステップ６２５）。誤差が
最小である補間スペクトルマグニチュードの集合が選択
され（ステップ６３０）、重みテーブルまでのインデッ
クスがカレントフレームの出力ビットに追加される（ス
テップ６３５）。

【００６２】選択された補間スペクトルマグニチュード
の集合は、次に、量子化される第１ｌｏｇスペクトルマ
グニチュードから減算され、スペクトル誤差の集合が得
られる（ステップ６４０）。以下で説明するように、こ
のスペクトル誤差の集合は精度向上のためにさらに量子
化することができる。

【００６３】モデルパラメータの量子化精度を向上する
方法には、いろいろな方法がある。しかし、ある種のア
プリケーションで利点のある一つの方法は、複数の量子
化層を使用することであり、そこでは、非量子化パラメ
ータと第１層の結果との誤差が第２層で量子化され、そ
の他の層も同じような働きをする。この階層化による方
法はスペクトルマグニチュードに適用することができ、
そこでは、上述した第１量子化層の結果として計算され
たスペクトル誤差に第２量子化層が適用されている。例
えば、一実施形態では、第２量子化層は、DCTでスペク
トル誤差を変換し、ベクトル量子化器を用いてこれらの
DCT係数のいくつかを量子化することによって実現され
ている。代表的な方法では、第１係数にゲイン量子化器
を使用すると共に、後続係数を分割ベクトル量子化して
いる。

【００６４】第２レベルの量子化は、まず、カレントフ
レームの量子化第２スペクトルマグニチュードの再構成
時に計算された量子化予測残余に応じて、望みの数の追
加ビットを適応的に割り振ることによってスペクトル誤
差について行われている。一般的に、予測残差が大きけ
れば割り振られるビット数は多くなり、残差（これはｌ
ｏｇドメインに入っている）がある量（0.67のように）
だけ増加すると、余分ビットが1個追加されるのが代表
的である。このビットアロケーション法は、ビットアロ
ケーションがｌｏｇスペクトルマグニチュード自体では
なく、予測残差に基づいている点で従来の手法と異なっ
ている。この方法によると、ビットアロケーションが先
行フレームのビット誤差に影響されないため、ノイズの
ある通信チャネルでパフォーマンスが向上するという利
点がある。

【００６５】追加ビットが上記のように割り振られる
と、次に、ベクトル量子化が、連続するスペクトル誤差
の各小ブロックに適用される（ブロック当たり4が代表
的）。各ブロックに割り振られたビット数に応じて、異
なるサイズのベクトル量子化 (vector Quantization V
Q) テーブルが適用される。しかし、最大VQテーブル
は、異常に大きいテーブルが要求されないように制限さ
れている。割り振られたビット数が最大VQサイズを超え
ると、VQ誤差に対する第３層のスカラ量子化が適用され
る。さらに、記憶領域の必要量（storage requiremen
t）をさらに低減化するために、割り振られたビット数
が最大数未満であるときは、最大サイズのVQテーブルを
一つだけ用いて、サーチを少なくしている。

【００６６】図４に示すように、両方のサブフレームの
スペクトルマグニチュードが量子化されると（ステップ
４４５）、次に、符号器は各サブフレームに対して音声
の修正コサイン変換 (ＭＣＴ) または他のスペクトル変
換を計算する（ステップ４５０）。一つの重要な進歩
は、PrincenおよびBradleyに記載されている時間ドメイ
ンエリアシングキャンセレーション (time domain alia
sing cancellation TDAC)をベースとするＭＣＴのよう
な、クリティカルサンプリング、オーバラップ変換の使
用である。この変換では、デジタル音声入力 s(k) のｉ
番目サブフレームから変換 S_i (k) (0 < = k < K/2) を
計算している。ここで、K/2は変換のサイズであり、典型的には、サブ
フレームのサイズに等しい。ウィンドウ関数w(n)(0 <=
n < K) は、隣接サブフレームに適用されるウィンドウ
間のオーバラップが50%までであるという制約がある。対称（シメトリック）で（つまり、w(n) = w(K-1-
n)）、この制約条件を満足する種々のウィンドウ関数が
使用できる。そのようなウィンドウ関数の一つとして、
ハーフサイン (half sine) 関数がある。ＭＣＴまたは類似の変換は、この目的のために望ましい
特性をもっているため、無声音声を表現するために使用
されているのが代表的である。ＭＣＴは、完全再構成能
力とクリティカルサンプリング能力を兼ね備えた、オー
バラップ直交変換クラスのメンバである。これらの特性
が特に重要である理由はいくつかある。第一に、オーバ
ラッピングウィンドウによると、サブフレーム間の移行
がスムーズになり、サブフレームレートでの可聴ノイズ
が除去され、有声と無声間の移行が良好になる。第二
に、完全再構成特性によると、変換自体がアーティファ
クトを復号化音声に導入することが防止される。最後
に、クリティカルサンプリングによると、変換係数が入
力サンプルと同数に保たれるので、各係数を量子化する
ために残しておくことができるビット数が増加する。

【００６７】符号器は、図７に示すプロシージャ７００
に従ってスペクトル変換を生成する。各々のサブフレー
ムごとに、量子化されたｌｏｇスペクトルマグニチュー
ドの集合は、各ＭＣＴビンの中心に一致するように補間
または再サンプリングされる（ステップ７０５）。これ
により、ｉ番目ＭＣＴサブフレームのスペクトルエンベ
ロープH_i(k) (0 <= k < K/2) が得られる。ここで、ｆはそのサブフレームの量子化基本周波数、lo
g m₁ (0 <= 1 <= L) は、そのサブフレームの量子化ｌ
ｏｇスペクトルマグニチュードである。次に、スペクト
ルエンベロープは、そのサブフレームの音声判断と基本
周波数で判断された有声周波数領域にあるビンについて
はゼロにセットされる（ステップ７１０）。

【００６８】図４に戻って説明すると、ＭＣＴ係数は、
ベクトル量子化器を用いて量子化されるが（ステップ４
５５）、そこでは、一緒にインタリーブされ、計算され
たスペクトルエンベロープを掛けたとき、そのサブフレ
ームの実際のＭＣＴ係数に対する相関を最大とする、一
つまたは二つ以上の候補ベクトルの組み合わせがサーチ
される（ステップ７１５）。候補ベクトルは、長プロト
タイプベクトルまでのオフセットからと、ベクトルのM
番目ごとのエレメントを+/-1だけスケーリングする、あ
らかじめ決めた符号ビット数によって構築される（ただ
し、Mは候補ベクトルごとの符号ビット数である）。典
型的には、候補ベクトルがとり得るオフセットの数は、
256（つまり、8ビット）のように、妥当な数に制限され
ており、追加ビットはすべて符号ビットとして使用され
る。例えば、11ビットが候補ベクトルに使用される場合
には、8ビットがオフセットに使用され、残りの3ビット
は符号ビットとなり、各符号ビットは候補ベクトルの、
3番目ごとのエレメントの符号を反転または非反転する
ことになる。

【００６９】次に、サブフレームの候補ベクトルをすべ
て結合するためにインタリービングが使用される（ステ
ップ７２０）。候補ベクトルの連続する各エレメント
は、N番目ごとのＭＣＴビンにインタリーブされる。こ
こで、Nは候補ベクトルの数である。代表的な実施形態
では、候補ベクトルは二つあり(N=2)、これらは偶数と
奇数のＭＣＴビンにインタリーブされ、各候補ベクトル
のエレメント数はサンプルに含まれるサブフレームのサ
イズの半分になっている。インタリーブされた候補ベク
トルは、次に、スペクトルエンベロープが掛けられ（ス
テップ７２５）、量子化スケール因子α_Iによってスケ
ーリングされ、各サブフレームのＭＣＴ係数が再構成さ
れる。

【００７０】次に、符号ビットが計算され、符号がフリ
ップされる（ステップ７３０）。そのあと、相関が計算
される（ステップ７３５）。考慮の対象となる候補ベク
トルの組み合わせが残っていなければ（ステップ７４
０）、最高の相関をもつ組み合わせが選択され（ステッ
プ７４５）、オフセットと符号ビットが出力ビットに加
えられる（ステップ７５０）。

【００７１】どのサブフレームの場合も、最良の候補ベ
クトルを見つけるプロセスでは、最高の相関をもつ可能
性のあるものが見つかるまで、N個の候補ベクトルの可
能な組み合わせの各々が、スペクトルエンベロープによ
ってスケールされ、非量子化ＭＣＴ係数と突き合わせて
比較される必要がある。N個候補ベクトルの可能な全て
の組み合わせをサーチするためには、各々の候補ごと
に、プロトタイプベクトルまでの全ての可能なオフセッ
トと、全ての可能な符号ビットを考慮する必要がある。
しかし、符号ビットの場合には、各符号の最良のセッテ
ィングは、そのビットに影響を受けるエレメントが、対
応する非量子化ＭＣＴ係数と正の相関をもつようにその
ビットをセットすれば、サーチされる可能性のあるオフ
セットだけが残されることになる。

【００７２】処理時間が十分でないため、可能な限りの
オフセットを完全にサーチできない場合には、部分的サ
ーチプロセスを使用すると、より低い複雑度で、N個候
補ベクトルの良好な組み合わせを見つけることができ
る。一実施形態で使用される部分的サーチプロセスで
は、候補ベクトルごとに最良の可能性がいくつか (3-8)
が事前に選択され、事前選択された候補ベクトルのすべ
ての組み合わせが試みられ、最高相関をもつ組み合わせ
が最終的選択として選択される。選択された組み合わせ
を符号化するために使用されるビットには、その組み合
わせにインタリーブされたN個候補ベクトルの各々のオ
フセットビットと符号ビットが含まれている。

【００７３】候補ベクトルの最良の可能な組み合わせが
選択されると（ステップ７１５）、次に、ｉ番目サブフ
レームのスケール因子α_iが計算され（ステップ７５
５）、この計算では、非量子化ＭＣＴ係数と選択された
候補ベクトルとの間の平均二乗誤差が最小限される。上記において、C_i(k) は組み合わされた候補ベクトルを
示し、H_i(k) はスペクトルエンベロープ、S_i(k) はｉ番
目サブフレームの非量子化ＭＣＴ係数である。

【００７４】次に、これらのスケール因子は、典型的に
は、ペア当たり少数のビット（例えば、1-6）を使用す
るベクトル量子化器を用いてペアで量子化される（ステ
ップ７２０）。典型的には、ＭＣＴ係数を量子化するの
に利用できるビット数が多いときも、少ないときも、各
候補べクトルに割り振られるビット数（フレーム当たり
２ビットが代表的）とスケール因子に割り振られるビッ
ト数（サブフレーム当たり１ビットが代表的）は、それ
ぞれ上下に調整される。その結果、この方法によれば、
可変数のビットを受け入れることができるので、以下で
説明するように可変レートオペレーションが可能にな
る。

【００７５】図１に戻って説明すると、量子化を行った
後、符号器は、オプションとして、順方向誤り制御 (fo
rward error control ＦＥＣ) コーダ１２０を用いて
量子化ビットを処理すると、フレームの出力ビット１２
５が得られる。これらの出力ビットは、例えば、復号器
に送ることも、以後の処理のために保管しておくことも
できる。結合器３６０は、量子化ＭＣＴ係数ビットと量
子化モデルパラメータビットを結合し、フレームの出力
ビットを出力する。

【００７６】例えば、4000 bpsでオペレーションすると
きは、符号器は、入力デジタル音声信号を、8 kHzサン
プリングレートの160サンプルからなる20 msフレームに
分割する。各フレームは、さらに2個の10 msフレームに
分割される。各フレームは80ビットで符号化され、その
一部または全部は、表１に示すようにＭＢＥモデルパラ
メータを量子化するために使用される。フレーム全体が
無声音であるか（つまり、全無声音ケース(All Unvoice
d Case)）、フレームの一部が有声であるか（つまり、
一部有声ケース(Some Voiced Case)）によって、二つの
場合（case）が考えられる。全部無声音ビット (All Un
voiced Bit) と名付けた最初の有声音ビットは、どちら
の場合がフレームに対して使用されるかを復号器に指示
する。残りのビットは、ケースに応じて表１に示すよう
に割り振られる。

【００７７】全無声音ケースでは、追加ビットは、有声
音情報にも基本周波数にも使用されない。一部有声ケー
スでは、有声音には３つの追加ビットが使用され、基本
周波数には７ビットが使用される。

【００７８】ゲイン項は４ビットか６ビットで量子化さ
れるのに対し、PRBAベクトルは常に、９ビットプラス７
ビット分割ベクトル量子化器で量子化されるので、総計
16ビットになる。HOCは常に、４個の４ビット量子化器
（ブロック当たり１個）で量子化されるので、総計16ビ
ットになる。さらに、一部有声ケースでは、第１ｌｏｇ
スペクトルマグニチュードに最良に合致する補間重みと
ゲイン項を選択するとき、３ビットが使用される。

【００７９】表１：4000 bps例の場合のモデルパラメータビットアロ
ケーション

【００８０】全無声音ケースでモデルパラメータを量子
化するために使用される、フレーム当たりの総ビット数
は37であり、43ビットはＭＣＴ係数用に残されている。
このケースでは、39ビットは、選択された４候補ベクト
ルの組み合わせのオフセットと符号ビットを示すために
使用され（フレーム当たり２候補、候補当たり８オフセ
ットビット、３候補用２符号ビット、第４候補用１符号
ビット）、最後の４ビットは２個の２ビット量子化器を
用いて関連ＭＣＴスケール因子を量子化するために使用
される。

【００８１】一部有声ケースでは、フレーム当たりの52
ビットは、モデルパラメータを量子化するために使用さ
れる。残りの28ビットは、ＭＣＴ係数とスペクトルマグ
ニチュードの追加量子化層の間で配分される。ビットア
ロケーションは次のルールを用いて行われる。ＭＣＴビットの数 = 28 * (無声音バンドの#)/6（最大2
8まで）追加スペクトルマグニチュードビットの数 = 28 ＭＣ
Ｔビットの数上記のようにスペクトルマグニチュードに割り当てられ
た追加ビットは、フレームの非量子化と量子化スペクト
ルマグニチュードの間の誤差を量子化するために使用さ
れる。スペクトルマグニチュード間のビットアロケーシ
ョンは、カレントフレームの第２ｌｏｇスペクトルマグ
ニチュードの量子化予測残余に基づいて行われる。ＭＣ
Ｔ係数に割り当てられたビットは分割され、90%はフレ
ーム当たりの４選択候補ベクトルのオフセットを示すた
めに使用され（このケースでは、使用できるオフセット
ビットの数は常に候補ベクトル当たり９未満であるの
で、符号ビットは使用されない）、残りの10%は、各々
がゼロ、１または２ビットを使用する、２個のベクトル
量子化器を用いてＭＣＴスケール因子を量子化するため
に使用される。

【００８２】無声音サウンドを表現し、変換係数で量子
化する方法は、さまざまに変形することができる。例え
ば、上述したＭＣＴに代わる変換には、さまざまなもの
が他にもある。さらに、ＭＣＴまたは他の係数は、適応
ビットアロケーション、スカラ量子化、およびベクトル
量子化（代数、マルチステージ、分割VQまたは構造化コ
ードブック）手法の使用を含む、種々の方法で量子化す
ることができる。さらに、ＭＣＴ係数のフレーム構造
は、モデルパラメータと同じサブフレーム構造を共用し
ないように変更することができる（つまり、ＭＣＴ係数
にはあるサブフレームの集合を使用し、モデルパラメー
タには別のサブフレームの集合を使用する）。一つの重
要な変形では、各サブフレームは二つのサブサブフレー
ムに分割され、各サブサブフレームには別々のＭＣＴ変
換が適用される。その後、上述したのと同じ手法を用い
て、各サブサブフレームに半分のビットが適用される。
サブフレームについて計算された二つのスケール因子
（サブフレームの２サブサブフレームごとに一つスケー
ル因子）は一緒にベクトル量子化される。この手法の利
点は、複雑さが低く、モデルパラメータの数を増やさな
くても、時間分解能が最も必要とされる無声音声で、よ
り良い時間解像度が得られるということである。

【００８３】これらの手法は、低周波数の無声領域でス
ペクトルエンベロープを減衰させるかまたはゼロにセッ
トするといったように、さらに洗練化された手法を含
む。典型的には、最初の数100ヘルツ(200-400 Hzが代表
的)に対してスペクトルエンベロープをゼロにセットす
ると、この周波数レンジでは無声音エネルギーは知覚的
に大きくなく、他方、背景雑音は目立つ傾向があるた
め、パフォーマンスが向上することになる。さらに、こ
れらの手法は、雑音除去方法の応用に適しているので、
ＭＣＴ係数とスペクトルマグニチュードに作用させて、
符号器で利用できる有声音情報を活用することができ
る。

【００８４】さらに、これらの手法の特徴は、固定レー
トモードでも、可変レートモードでも働く能力があるこ
とである。固定レートモードでは、各フレームは同数の
ビットを使用する設計になっているのに対し（つまり、
4000 bpsボコーダでは、20 msフレーム当たり80ビッ
ト）、可変レートモードでは、符号器は、選択可能なオ
プションのセットからレート（つまり、フレーム当たり
のビット数）を選択している。可変レートの場合には、
その選択は平均レートが低くなるように符号器によって
行われるが、品質を向上するようにフレームをコード化
するのが困難であるとき多くのビットを用いている。レ
ート選択は、最低の平均レートで最高品質を達成するた
めに、数回の信号測定に基づいて行うことができ、オプ
ションのボイス/サイレンスの識別を取り入れると、さ
らに向上させることができる。これらの手法では、この
ビットアロケーション方法によると固定レートでも、可
変レートでもオペレーションが可能になっている。

【００８５】これらの手法によれば、ビットアロケーシ
ョンは、先行フレームで発生している可能性のあるビッ
ト・エラーに過剰に影響されることなく、利用可能なす
べてのビットを有効利用することを試みている。ビット
アロケーションは、カレントフレームの総ビット数の制
約を受けるため、これをパラメータとして考慮して符号
器と復号器の両方に与えられている。固定レートオペレ
ーションの場合には、総ビット数は望みのビットレート
とフレームサイズで決まる定数であるのに対し、可変レ
ートオペレーションの場合には、総ビット数はレート選
択アルゴリズムによって設定されるので、どちらの場合
も、これは外部から与えられるパラメートとして考える
ことができる。符号器は、ＭＢＥモデルパラメータを量
子化するために初期に使用されたビット数を総ビット数
から減算し、この中には、音声判断、基本周波数（すべ
てが無声音であればゼロ）、およびスペクトルマグニチ
ュードの集合の第１量子化層が含まれている。残りのビ
ットは、スペクトルマグニチュードの追加量子化層、サ
ブフレームＭＣＴ係数の量子化、またはその両方のため
に使用される。フレーム全体が無声音であるときは、残
りのビットはすべてが、ＭＣＴ係数に適用されるのが代
表的である。フレーム全体が有声であるときは、残りの
ビットはすべてが、スペクトルマグニチュードの追加量
子化層または他のＭＢＥモデルパラメータに割り振られ
るのが代表的である。一部が有声で、一部が無声音であ
るフレームのときは、残りのビットは、そのフレームに
含まれる有声音と無声音周波数バンドの数に比例して配
分されるのが一般である。このプロセスによると、高有
声音品質を達成する上で最も効果的である場合に残りビ
ットを使用できると共に、ビットアロケーションをフレ
ーム内で以前にコード化された情報に基づいて行うこと
により、先行フレームのビット誤差に影響されないよう
にすることができる。

【００８６】図８を参照して説明すると、復号器８００
は入力ビットストリーム８０５を処理する。この入力ビ
ットストリームには、符号器１００によって生成された
ビット集合が含まれている。各集合は、デジタル信号１
０５の符号化フレームに対応している。ビットストリー
ムは、例えば、符号器から送られてきたビットを受信す
るレシーバによって出力させることも、記憶装置（スト
レージデバイス）から取り出すこともできる。

【００８７】符号器１００がＦＥＣコーダを用いてビッ
トを符号化したときは、フレームの入力ビットの集合は
ＦＥＣ復号器８１０に入力される。ＦＥＣ復号器８１０
はそのビットを復号化して量子化ビットの集合を出力す
る。

【００８８】復号器は、量子化ビットに対してパラメー
タ再構成８１５を行い、フレームのＭＢＥモデルパラメ
ータを再構成する。復号器は、ＭＣＴ係数再構成８２０
も行い、フレームの無声音部分に対応する変換係数を再
構成する。

【００８９】フレームのすべてのパラメータが再構成さ
れると、次に、復号器は、有声音合成８２５と無声音合
成８３０を別々に行う。その後、復号器は、その結果
を、加算し（８３５）、デジタル−アナログコンバータ
とスピーカからのプレイバックに適した、フレームのデ
ジタル音声出力８４０を出力する。

【００９０】復号器のオペレーションは、符号器とは逆
に行われ、符号器による出力ビットから各フレームのＭ
ＢＥモデルパラメータとＭＣＴ係数が再構成され、その
後、再構成された情報から音声フレームが合成されるの
が一般である。復号器は、フレームに含まれるすべての
サブフレームの音声判断と基本周波数からなる励起パラ
メータを最初に再構成する。フレーム全体に対して推定
され、符号化される音声判断の集合が一つだけで、基本
周波数が一つだけの場合には、復号器は先行フレームで
受信された類似のデータで補間し、中間サブフレームの
基本周波数と音声判断を、符号器と同じように、再構成
する。また、フレーム全体が無声音であることを音声判
断が示していた場合には、復号器は、基本周波数をデフ
ォルトの無声音値に設定する。次に、復号器は、符号器
で使用された量子化プロセスの逆を行って、スペクトル
マグニチュードのすべてを再構成する。復号器は、符号
器で行われたアロケーションを再計算できるので、符号
器で使用されたすべての量子化層を、復号器で用いてス
ペクトルマグニチュードを再構成することができる。

【００９１】フレームのモデルパラメータが再構成され
ると、次に、復号器は、各サブフレーム（または二つ以
上のＭＣＴ変換がサブフレームごとに行われる場合はサ
ブサブフレーム）のＭＣＴ係数を再生成する。復号器
は、符号器の場合と同じ方法で、各サブフレームのスペ
クトルエンベロープを再構成する。その後、復号器は、
このスペクトルエンベロープに、符号化オフセットと符
号ビットで示されたインタリーブ候補ベクトルを乗算す
る。次に、復号器は、各サブフレームのＭＣＴ係数を、
該当の復号化スケール因子でスケーリングする。その
後、復号器は、TDACウィンドウw(n) を用いて逆ＭＣＴ
を計算し、ｉ番目サブフレームの出力y_i(n)を出力す
る。上記プロセスは、サブフレーム（またはサブサブフレー
ム）ごとに繰り返され、連続するサブフレームからの逆
ＭＣＴ結果は、サブフレーム間のアライメント（各々が
先行サブレームに対してK/2だけオフセットされてい
る）が正しくなるように、オーバラップ−加算（overla
p-add）を用いて結合され、そのフレームの無声音信号
が再構成される。

【００９２】有声音信号は、各ハーモニックに一つが割
り当てられているハーモニックオシレータのバンクを用
い復号器によって別々に合成される。典型的なケースで
は、有声音声（voiced speech）は、一度に一つのサブ
フレームごとに合成され、モデルパラメータ用に使用さ
れた表現と一致するようにされる。合成境界は、各サブ
フレーム間に現れるので、有声音合成方法は、これらの
サブフレーム境界に、可聴な非連続性が発生しないよう
にする必要がある。各ハーモニックオシレータが連続す
るサブフレームを表すモデルパラメータ間で補間を行う
必要があるのは、この連続性条件のためである。

【００９３】各ハーモニックオシレータの振幅は、線形
多項式となるように制約されているのが通常である。線
形振幅多項式のパラメータは、振幅がサブフレームにま
たがる対応するスペクトルマグニチュードの間に補間さ
れるようにセットされている。これは、ハーモニックの
単純な順序付け割り当てに従って行われるのが一般であ
る（例えば、第１オシレータは先行サブフレームとカレ
ントフレームの第1スペクトルマグニチュードの間に補
間し、第２オシレータはカレントサブフレームと先行サ
ブフレームの第２スペクトルマグニチュードの間に補間
し、以下同様にすべてのスペクトルマグニチュードが使
用されるまで続けられる）。しかし、無声音周波数バン
ドへ/からの移行を含む、ある種のケースでは、二つの
集合に含まれるスペクトルマグニチュードの数が等しく
ない場合や、あるいは基本周波数がサブフレーム間で余
りに変化する場合は、振幅多項式はスペクトルマグニチ
ュードの一つに整合されるのではなく、一方または他方
のエンドでゼロに整合される。

【００９４】同様に、各ハーモニックオシレータの位相
は、二次または三次多項式となるように制約されてお
り、多項式係数は、位相とそのデリバティブ（派生位
相）が、開始および終了サブフレーム境界の両方で望み
の位相と周波数値に整合されるように選択されている。
サブフレーム境界での望みの位相は、明示的に伝送され
る位相情報から決定されるか、いくつかの位相再生成方
法によって決定される。l番目のハーモニックオシレー
タのサブフレーム境界での望みの周波数は、単純に基本
周波数を１倍したものに等しくなっている。各ハーモニ
ックオシレータの出力は、フレーム内のサブフレームご
とに加算され、その結果が無声音声に加算されて、カレ
ントフレームの合成音声が完成される。このプロシージ
ャの詳細は、本明細書の中で引用されている参考文献に
記載されている。一連の連続フレームに対してこの合成
プロセスを繰り返すと、連続するデジタル音声信号が得
られ、その信号をデジタル−アナログコンバータに出力
すれば、従来のスピーカからのプレイバックが可能にな
る。

【００９５】図９を参照して、復号器のオペレーション
を要約する。図示のごとく、復号器は、各フレームの入
力ビットストリーム９００を受信する。ビットアロケー
タ９０５は、再構成された有声音情報を用いてビットア
ロケーション情報をＭＢＥモデルパラメータ再構成器９
１０とＭＣＴ係数再構成器９１５に渡す。

【００９６】ＭＢＥモデルパラメータ再構成器９１０
は、ビットストリーム９００を処理し、受け取ったビッ
トアロケーション情報を用いてフレーム内のすべてのサ
ブフレームについてＭＢＥモデルパラメータを再構成す
る。V/UVエレメント９２０は、再構成されたモデルパラ
メータを処理し、再構成された有声音情報を生成すると
共に、有声領域と無声領域を識別する。スペクトルエン
ベロープエレメント９２５は、再構成されたモデルパラ
メータを処理し、スペクトルマグニチュードからスペク
トルエンベロープを作成する。このスペクトルエンベロ
ープは、エレメント９３０によってさらに処理され、有
声領域がゼロにセットされる。

【００９７】ＭＣＴ係数再構成器９１５は、ビットアロ
ケーション情報、特定された有声領域、処理されたスペ
クトルエンベロープ、および候補ベクトルのテーブルを
用いて、各サブフレームまたはサブサブフレーの入力ビ
ットからＭＣＴ係数を再構成する。その後、各サブサブ
フレームについて逆ＭＣＴ９４０が実行される。

【００９８】ＭＣＴ９４０の出力は、オーバラップ−加
算エレメント９４５によって結合され、フレームの無声
音声が出力される。

【００９９】有声音声シンセサイザ９５０は、再構成さ
れたＭＢＥモデルパラメータを用いて有声音声を合成す
る。

【０１００】最後に、加算器９５５は、有声音声と無声
音声を加算し、デジタル−アンログコンバータとスピー
カからのプレイバックに適したデジタル音声出力９６０
を出力する。

【０１０１】高品質の合成音声を達成するために、有声
領域と無声領域間の移行を合成するための改良手法が提
供される。サブフレームのハーモニックが有声と無声の
間で変化すると、有声音合成プロシージャは、そのハー
モニックの振幅を、無声音サブフレームに対応するスブ
フレーム境界でゼロにセットする。これは、振幅多項式
を、無声音エンド（端）で、ゼロに整合することによっ
て行われる。この手法が従来の手法と異なっているの
は、ハーモニックが、有声音移行（voicing transitio
n）を受けるとき、振幅多項式に、線形または区分線形
の多項式が使用されない点にある。その代わりに、無声
音声を合成するために使用されるのと同じＭＣＴウィン
ドウの二乗が使用される。有声音と無声音合成方法の間
で統一的ウィンドウを上記のように使用すると、追加の
アーティファクトを引き起こすことなく、移行がスムー
ズに処理されることになる。

【０１０２】合成プロシージャにはさまざまな種類のも
のがある。有声音声を合成する一つの顕著な方法は、最
初の少数の低周波数のハーモニック（典型的には７）に
だけハーモニックオシレータのバンクを使用し、その
後、補間、再サンプリングおよびオーバラップ−加算と
共にインバースＦＦＴ（逆ＦＦＴ）を使用し、残りの高
周波数ハーモニックに関連する有声音声を合成すること
である。このハイブリッド法によると、複雑さを低減し
て高品質有声音声が合成される。この方法の詳細は、米
国特許第5,581,656号と第5,195,166号に記載されてい
る。なお、その内容は引用により本明細書に含まれてい
る。

【０１０３】さらに、位相再生成を復号器で使用する
と、位相情報を明示的に符号化し、送信しなくても、有
声音声の合成に必要な位相情報を得ることができる。典
型的には、このような位相再生成方法は、他の復号され
たモデルパラメータから近似位相信号を計算している。
米国特許第5,081,681号と第5,664,051号に記載されてい
る一つの方法では、復号された基本周波数と音声判断
（voicing decisions）を用いてランダムな位相値が計
算されている。なお、前記特許の内容は引用により本明
細書に含まれている。米国特許第5,701,390号に記載さ
れ、その内容が引用により本明細書に含まれている別の
方法では、サブフレーム境界のハーモニック位相は、ス
ムーズ化カーネルを、ｌｏｇスペクトルマグニチュード
に適用するか、あるいは最小位相または類似の大きさに
基づく位相再構成を行うことにより、音声大きさから復
号器で再生成されている。上記および他の位相再生成方
法によると、フレーム内の他のパラメータを量子化する
のにより多くのビットを割り振ることができるため、歪
みが減少し、フレームサイズが短くなり、時間分解能を
向上することになる。

【０１０４】復号化と音声合成方法の詳細と代替実施形
態は、上記の参考文献に記載されている。

【０１０５】その他の実施形態は本発明の範囲に属する
ものである。

【図面の簡単な説明】

【図１】音声符号器を示す簡略ブロック図である。

【図２】図２は、図１の音声符号器のパラメータ分析ブ
ロックと量子化ブロックを示すブロック図である。

【図３】図３は、図１の音声符号器のパラメータ分析ブ
ロックと量子化ブロックを示すブロック図である。

【図４】図４は、図１の音声符号器によって実行される
プロシージャを示すフローチャートである。

【図５】図５は、図１の音声符号器によって実行される
プロシージャを示すフローチャートである。

【図６】図６は、図１の音声符号器によって実行される
プロシージャを示すフローチャートである。

【図７】図７は、図１の音声符号器によって実行される
プロシージャを示すフローチャートである。

【図８】音声復号器を示す簡略ブロック図である。

【図９】図８の音声復号器の再構成ブロックと合成ブロ
ックを示すブロック図である。

【符号の説明】

１００符号器１０５デジタル音声１１０パラメータ分析１１５量子化ブロック２００基本周波数２１０ウィンドウ関数３００ビットアロケーションエレメント３０５ＭＢＥモデルパラメータ量子化器３１０ＭＢＥモデルパラメータ３１５ＭＢＥモデルパラメータ３３０スペクトルエンベロープエレメント３４５修正コサイン変換 (ＭＣＴ) ３５０ＭＣＴ係数量子化器８００復号器８１０ＦＥＣ復号器８１５パラメータ再構成８２５有声合成８３０無声合成８４０デジタル音声出力９００入力ビットストリーム９０５ビットアロケータ９１０ＭＢＥモデルパラメータ再構成器９１５ＭＣＴ係数再構成器９２０ V/UVエレメント９２５スペクトルエンベロープエレメント９３５候補ベクトル９４０ＭＣＴ９４５オーラップ−加算９５０有声音声合成９５５加算器９６０デジタル音声出力

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 9/18 Ａ

Claims

【特許請求の範囲】

【請求項１】音声信号を符号化ビットの集合に符号化す
る方法であって、該方法が、前記音声信号をデジタル化してデジタル音声サンプルの
シーケンスを生成し、前記デジタル音声サンプルをフレームシーケンスに分割
し、前記フレームの各々は複数のデジタル音声サンプル
にわたっており、フレームに対する音声モデルパラメータの集合を推定
し、前記音声モデルパラメータは、前記フレームを有声
領域と無声領域に分割する音声パラメータ、少なくとも
前記フレームの前記有声領域のピッチを表している少な
くとも一つのピッチパラメータ、および少なくとも前記
フレームの前記有声領域のスペクトル情報を表している
スペクトルパラメータを含んでおり、前記音声モデルパラメータを量子化してパラメータビッ
トを生成し、前記フレームを一つまたは二つ以上のサブフレームに分
割し、前記サブフレームを表すデジタル音声サンプルの
変換係数を計算し、前記フレームの前記無声領域における前記変換係数を量
子化して変換ビットを生成し、および、前記パラメータビットと前記変換ビットを符号化ビット
の前記集合に含ませる、ことを含む、ことを特徴とする
方法。
【請求項２】請求項１に記載の方法において、前記フレ
ームは、周波数バンドに分割され、前記音声パラメータ
は、前記フレームの周波数バンドに関するバイナリ音声
判断を含み、有声領域と無声領域への前記分割が、少なくとも一つの
周波数バンドを有声であると指定し、一つの周波数バン
ドを無声であると指定するものである、ことを特徴とす
る方法。
【請求項３】請求項１に記載の方法において、前記フレ
ームの前記スペクトルパラメータは、前記フレームの前
記音声パラメータとは独立した形で、有声領域と無声領
域の両方に対して推定されたスペクトルマグニチュード
の一つまたは二つ以上の集合を含んでいる、ことを特徴
とする方法。
【請求項４】請求項３に記載の方法において、対数などの圧伸演算を用いて前記フレーム内のすべての
スペクトルマグニチュードの集合を圧伸して、圧伸され
たスペクトルマグニチュードの集合を生成し、前記フレーム内の圧伸されたスペクトルマグニチュード
の最後の集合を量子化し、前記フレーム内において、圧伸されたスペクトルマグニ
チュードの前記量子化された最後の集合と、先行フレー
ムから圧伸されたスペクトルマグニチュードのの量子化
された集合との間で補間し、補間されたスペクトルマグ
ニチュードを生成し、前記圧伸されたスペクトルマグニチュードの集合と前記
補間されたスペクトルマグニチュードとの差分を決定
し、および、前記スペクトルマグニチュード間の決定された差分を量
子化する、ことを含む方法を用いて量子化されたスペク
トルマグニチュードの一つまたは二つ以上の集合を、前
記フレームの前記スペクトルパラメータが含んでいる、
ことを特徴とする方法。
【請求項５】請求項４に記載の方法において、さらに、前記デジタル音声サンプルをウィンドウ処理しウィンド
ウ処理された音声サンプルを生成し、前記ウィンドウ処理された音声サンプルのＦＦＴを計算
してＦＦＴ係数を出力し、前記ピッチパラメータに対応する基本周波数の倍数付近
における前記ＦＦＴ係数のエネルギーを加算し、およ
び、前記スペクトルマグニチュードを前記加算されたエネル
ギーの平方根として計算することによって、前記スペク
トルマグニチュードを計算する、ことを含む、ことを特
徴とする方法。
【請求項６】請求項３に記載の方法において、さらに、前記デジタル音声サンプルをウィンドウ処理してウィン
ドウ処理された音声サンプルを出力し、前記ウィンドウ処理された音声サンプルのＦＦＴを計算
してＦＦＴ係数を出力し、前記ピッチパラメータに対応する基本周波数の倍数付近
でＦＦＴ係数のエネルギーを加算し、および、前記スペクトルマグニチュードを前記加算エネルギーの
平方根として計算することによって、前記スペクトルマ
グニチュードを計算する、ことを含むことを特徴とする
方法。
【請求項７】請求項１に記載の方法において、前記変換
係数が、クリティカルサンプリングおよび完全再構成特
性を備えた変換を用いて計算される、ことを特徴とする
方法。
【請求項８】請求項１、２、３、４、５、６または７に
記載の方法において、前記変換係数が、前記デジタル音
声サンプルのオーバラップしたウィンドウを用いて、隣
接サブフレームの変換係数を計算するオーバラップ変換
を用いて計算される、ことを特徴とする方法。
【請求項９】請求項１、２、３、４、５、６または７に
記載の方法において、前記変換係数を量子化して変換ビ
ットを生成する処理が、前記サブフレームのスペクトルエンベロープを前記モデ
ルパラメータから計算するステップ、候補係数の複数の集合を形成し、候補係数の各集合は一
つまたは二つ以上の候補ベクトルを結合し、前記結合さ
れた候補ベクトルを前記スペクトルエンベロープで乗ず
ることによって形成されるステップ、前記変換係数に最も近い候補係数の集合を、前記複数の
候補係数集合から選択するステップ、および、前記選択された候補係数の集合のインデックスを、前記
変換ビットに組み入れるステップ、を含む、ことを特徴
とする方法。
【請求項１０】請求項９に記載の方法において、各候補
ベクトルは、既知のプロトタイプベクトルへのオフセッ
トと複数の符号ビットから形成され、各符号ビットは、
前記候補ベクトルの一つまたは二つ以上の要素の符号を
変更する、ことを特徴とする方法。
【請求項１１】請求項９に記載の方法において、前記選
択された候補係数の集合は、前記変換係数との最高の相
関をもつ複数の候補係数の集合である、ことを特徴とす
る方法。
【請求項１２】請求項９に記載の方法において、前記変
換係数を量子化して変換ビットを生成する処理が、さら
に、前記サブフレームの前記選択された候補ベクトルの最良
スケール因子を計算するステップ、前記フレーム内のサブフレームのスケール因子を量子化
してスケール因子ビットを生成するステップ、および、前記スケール因子ビットを前記変換ビットに組み入れる
ステップ、を含む、ことを特徴とする方法。
【請求項１３】請求項１２に記載の方法において、前記
フレーム内の異なるサブフレームのスケール因子は結合
的（ジョイント的に）量子化されて、前記スケール因子
ビットを生成する、ことを特徴とする方法。
【請求項１４】請求項１３に記載の方法において、前記
ジョイント量子化は、ベクトル量子化器を用いる、こと
を特徴とする方法。
【請求項１５】請求項１、２、３、４、５、６または７
に記載の方法において、前記フレームシーケンス中の一
のフレームの符号化ビットの前記集合に含まれるビット
の数が、前記フレームシーケンス中の第２のフレームの
符号化ビットの前記集合に含まれるビットの数とは異な
る、ことを特徴とする方法。
【請求項１６】請求項１、２、３、４、５、６または７
に記載の方法において、さらに、符号化ビットの前記集合に含まれるビットの数を選択
し、前記数はフレームごとに変化させることが可能であ
り、および、前記選択したビットの数をパラメータビットと変換ビッ
トの間で割り当てる、ことを含む、ことを特徴とする方
法。
【請求項１７】請求項１６に記載の方法において、ある
フレームの符号化ビットの前記集合のビット数の選択
が、少なくとも一部は、前記フレーム内のスペクトル情
報を表すスペクトルマグニチュードパラメータと、先行
フレーム内のスペクトル情報を表す先行スペクトルマグ
ニチュードパラメータとの間の変化の度合に基づいてお
り、前記変化の度合が大きいときは多数のビットが優先
され、前記変化の度合が小さいときは少数のビットが優
先される、ことを特徴とする方法。
【請求項１８】デジタル音声サンプルのシーケンスを含
むデジタル化音声信号を符号化ビットの集合に符号化す
る符号器であって、該符号器は、前記デジタル音声サンプルをフレームのシーケンスに分
割する分割エレメント、ただし、前記フレームの各々は
複数のデジタル音声サンプルを含んでおり、一つのフレームの音声モデルパラメータの集合を推定す
る音声モデルパラメータ推定器、ただし、前記音声モデ
ルパラメータは、前記フレームを有声領域と無声領域に
分割する音声パラメータ、少なくとも前記フレームの前
記有声領域のピッチを表す少なくとも一つのピッチパラ
メータ、少なくとも前記フレームの前記有声領域のスペ
クトル情報を表すスペクトルパラメータを含んでおり、前記モデルパラメータを量子化してパラメータビットを
生成するパラメータ量子化器、前記フレームを一つまたは二つ以上のサブフレームに分
割し、前記サブフレームを表すデジタル音声サンプルの
変換係数を計算する変換係数生成器、前記フレームの無声領域内の前記変換係数を量子化して
変換ビットを生成する変換係数量子化器、および、前記パラメータビットと前記変換ビットを結合して前記
符号化ビットの集合を出力する結合器を備えている、こ
とを特徴とする符号器。
【請求項１９】請求項１８に記載の符号器において、前
記分割エレメント、前記音声モデルパラメータ推定器、
前記パラメータ量子化器、前記変換係数生成器、前記変
換係数量子化器、および前記結合器の少なくとも一つ
が、一つのデジタル信号プロセッサによって実現されて
いる、ことを特徴とする符号器。
【請求項２０】請求項１９に記載の符号器において、前
記分割エレメント、前記音声モデルパラメータ推定器、
前記パラメータ量子化器、前記変換係数生成器、前記変
換係数量子化器、および前記結合器が、前記デジタル信
号プロセッサによって実現されている、ことを特徴とす
る符号器。
【請求項２１】請求項１８に記載の符号器において、前
記フレームのスペクトルパラメータは一つまたは二つ以
上のスペクトルマグニチュードの集合を含み、前記パラメータ量子化器は、対数などの圧伸演算を用いて前記フレーム内の、すべて
のスペクトルマグニチュードの集合を圧伸して、圧伸さ
れたスペクトルマグニチュードの集合を出力し、前記フレーム内の前記圧伸されたスペクトルマグニチュ
ードの最後の集合を量子化し、前記フレーム内の圧伸されたスペクトルマグニチュード
の前記最後に量子化された集合と先行フレームからの圧
伸されたスペクトルマグニチュードの量子化された集合
との間で補間して、補間されたスペクトルマグニチュー
ドを形成し、前記圧伸されたスペクトルマグニチュードの集合と前記
補間されたスペクトルマグニチュードとの差分を決定
し、前記スペクトルマグニチュード間で決定された差分を量
子化することによって、前記スペクトルマグニチュード
パラメータを量子化する動作を行う、ことを特徴とする
符号器。
【請求項２２】請求項１８に記載の符号器において、前
記音声モデルパラメータ推定器は、前記デジタル音声サンプルをウィンドウ処理してウィン
ドウ処理された音声サンプルを生成し、前記ウィンドウ処理された音声サンプルのＦＦＴを計算
してＦＦＴ係数を生成し、前記ピッチパラメータに対応する基本周波数の倍数付近
で前記ＦＦＴ係数のエネルギーを加算し、前記スペクトルマグニチュードを前記加算エネルギーの
平方根として計算することによって、前記スペクトルマ
グニチュードを計算する、ことを特徴とする符号器。
【請求項２３】請求項１８に記載の符号器において、前
記変換係数生成器は、前記デジタル音声サンプルのオー
バラップウィンドウを用いて隣接するサブフレームの変
換係数を計算するオーバラップ変換を用いて変換係数を
生成する、ことを特徴とする符号器。
【請求項２４】請求項１８に記載の符号器において、前
記変換係数量子化器は、前記モデルパラメータからサブ
フレームのスペクトルエンベロープを計算し、候補係数の複数の集合を形成し、候補係数の各集合は、
一つまたは二つ以上の候補ベクトルを結合し、前記結合
された候補ベクトルにスペクトルエンベロープを乗ずる
ことによって形成され、前記変換係数に最も近い候補係数の集合を、候補係数の
複数の集合の中から選択し、前記選択された候補係数の集合のインデックスを、前記
変換ビットに組み入れることによって、前記変換係数を
量子化して変換ビットを生成する、ことを特徴とする符
号器。
【請求項２５】請求項２４に記載の符号器において、前
記変換係数量子化器は、既知のプロトタイプベクトルへ
のオフセットと複数の符号ビットから各候補ベクトルを
形成し、各符号ビットは前記候補ベクトルの一つまたは
二つ以上の要素の符号を変更するようにした、ことを特
徴とする符号器。
【請求項２６】符号化ビットの集合からデジタル音声サ
ンプルのフレームを復号化する方法であって、該方法
は、符号化ビットの前記集合からモデルパラメータビットを
抽出し、デジタル音声サンプルの前記フレームを表すモデルパラ
メータを、前記抽出されたモデルパラメータビットから
再構成し、前記モデルパラメータは、前記フレームを有
声領域と無声領域に分割する音声パラメータと、少なく
とも前記フレームの有声領域のピッチ情報を表す少なく
とも一つのピッチパラメータと、少なくとも前記フレー
ムの有声領域のスペクトル情報を表すスペクトルパラメ
ータとを含み、前記フレームの有声音声サンプルを前記再構成されたモ
デルパラメータから生成し、前記符号化ビットの集合から変換係数を抽出し、前記フレームの無声領域を表す変換係数を、前記抽出さ
れた変換係数から再構成し、前記再構成された変換係数を逆変換して逆変換サンプル
を生成し、前記フレームの有声音声を前記逆変換サンプルから生成
し、前記フレームの有声音声と前記フレームの無声音声を結
合して、デジタル音声サンプルの前記復号化されたフレ
ームを生成する、こと含むことを特徴とする方法。
【請求項２７】請求項２６に記載の方法において、前記
フレームは周波数バンドに分割され、前記音声パラメー
タは前記フレームの周波数バンドに関するバイナリ音声
判断を含み、有声領域と無声領域への前記分割が、少な
くとも一つの周波数バンドは有声、一つの周波数バンド
は無声と指定するものである、ことを特徴とする方法。
【請求項２８】請求項２６に記載の方法において、前記
フレームの前記ピッチパラメータと前記スペクトルパラ
メータは、一つまたは二つ以上の基本周波数とスペクト
ルマグニチュードの一つまたは二つ以上の集合を含んで
いる、ことを特徴とする方法。
【請求項２９】請求項２８に記載の方法において、前記
フレームの有声音声サンプルは、前記スペクトルマグニ
チュードから計算された、合成位相情報を用いて生成さ
れる、ことを特徴とする方法。
【請求項３０】請求項２６に記載の方法において、前記
フレームの有声音声サンプルは、少なくとも一部がハー
モニックオシレータのバンクによって生成される、こと
を特徴とする方法。
【請求項３１】請求項３０に記載の方法において、前記
有声音声サンプルの低周波数部分は前記ハーモニックオ
シレータのバンクによって生成され、前記有声音声サン
プルの高周波数部分は補間と共にインバースＦＦＴを用
いて生成され、前記補間は、少なくともその一部が前記
フレームの前記ピッチ情報に基づいている、ことを特徴
とする方法。
【請求項３２】請求項２６に記載の方法において、該方
法は、さらに、前記フレームをサブフレームに分割し、前記再構成された変換係数をグループに分け、前記再構
成された変換係数の各グループは前記フレーム内の異な
るサブフレームと関連付けられており、グループ内の再構成変換係数を逆変換して、対応するサ
ブフレームに関連する逆変換サンプルを出力し、およ
び、連続するサブフレームに関連する逆変換サンプルをオー
バラップして、加算し、前記フレームの無声音声を生成
する、ことを含む、ことを特徴とする方法。
【請求項３３】請求項３２に記載の方法において、前記
逆変換サンプルは、クリティカルサンプリングおよび完
全再構成特性を備えたオーバラップした変換の逆を用い
て計算される、ことを特徴とする方法。
【請求項３４】請求項２６に記載の方法において、前記再構成されたモデルパラメータからスペクトルエン
ベロープを計算し、前記変換係数ビットから一つまたは二つ以上の候補ベク
トルを再構成し、前記候補ベクトルを結合し、前記結合候補ベクトルを前
記スペクトルエンベロープで乗ずることによって前記再
構成された変換係数を形成する、ことによって、前記再
構成された変換係数が前記変換係数から生成される、こ
とを特徴とする方法。
【請求項３５】請求項３４に記載の方法において、前記
候補ベクトルが、既知プロトタイプベクトルまでのオフ
セットと複数の符号ビットを用いることによって、前記
変換係数ビットから再構成され、各符号ビットは、前記
候補ベクトルの一つまたは二つ以上の要素の符号を変更
する、ことを特徴とする方法。
【請求項３６】符号化ビットの集合からデジタル音声サ
ンプルのフレームを復号化する復号器であって、該復号
器は、符号化ビットの前記集合からモデルパラメータビットを
抽出するモデルパラメータ抽出器、デジタル音声サンプルの前記フレームを表すモデルパラ
メータを、前記抽出されたモデルパラメータビットから
再構成するモデルパラメータ再構成器、前記モデルパラ
メータは、前記フレームを有声領域と無声領域に分割す
る音声パラメータと、少なくともフレームの有声領域の
ピッチ情報を表す少なくとも一つのピッチパラメータ
と、少なくとも前記フレームの有声領域のスペクトル情
報を表すスペクトルパラメータとを含んでおり、前記再構成されたモデルパラメータから有声音声サンプ
ルを出力する有声音声合成器、符号化ビットの前記集合から変換係数ビットを抽出する
変換係数抽出器、前記フレームの無声領域を表す変換係数を、前記抽出さ
れた変換係数ビットから再構成する変換係数再構成器、前記再構成された変換係数を逆変換して逆変換サンプル
を生成する逆変換器、前記逆変換サンプルから前記フレームの無声音声を合成
する無声音声合成器、および、フレームの有声音声とフレームの無声音声を結合して、
デジタル音声サンプルの復号化フレームを出力する結合
器を備えている、ことを特徴とする復号器。
【請求項３７】請求項３６に記載の復号器において、前
記モデルパラメータ抽出器、前記モデルパラメータ再構
成器、前記有声音声合成器、前記変換係数抽出器、前記
変換係数再構成器、前記逆変換器、前記無声音声合成
器、および前記結合器の少なくとも一つが、一つのデジ
タル信号プロセッサで実現されている、ことを特徴とす
る復号器。
【請求項３８】請求項３７に記載の復号器において、前
記モデルパラメータ抽出器、前記モデルパラメータ再構
成器、前記有声音声合成器、前記変換係数抽出器、前記
変換係数再構成器、前記逆変換器、前記無声音声合成
器、および前記結合器が、前記デジタル信号プロセッサ
で実現されている、ことを特徴とする復号器。
【請求項３９】音声信号を符号化ビットの集合に符号化
する方法であって、該方法は、音声信号をデジタル化してデジタル音声サンプルのシー
ケンスを生成し、前記デジタル音声サンプルをフレームのシーケンスに分
割し、前記フレームの各々は複数のデジタル音声サンプ
ルにわたっており、前記フレームの音声モデルパラメータの集合を推定し、
前記音声モデルパラメータは、音声パラメータと、前記
フレームのピッチを表す少なくとも一つのピットパラメ
ータと、前記フレームのスペクトル情報を表すスペクト
ルパラメータとを含んでおり、前記モデルパラメータを量子化してパラメータビットを
生成し、前記フレームを一つまたは二つ以上のサブフレームに分
割し、前記サブフレームを表す前記デジタル音声サンプ
ルの変換係数を計算し、前記変換係数の計算は、クリテ
ィカルサンプリングおよび完全再構成特性を備えた変換
を用い、前記変換係数の少なくとも一部を量子化して変換ビット
を生成し、および、前記パラメータビットと前記変換ビ
ットを符号化ビットの前記集合に組み入れる、ことを含
む、ことを特徴とする方法。
【請求項４０】符号化ビットの集合からデジタル音声サ
ンプルのフレームを復号化する方法であって、該方法
は、符号化ビットの前記集合からモデルパラメータを抽出
し、デジタル音声サンプルの前記フレームを表すモデルパラ
メータを再構成し、前記モデルパラメータは、音声パラ
メータと、前記フレームのピッチ情報を表す少なくとも
一つのピッチパラメータと、前記フレームのスペクトル
情報を表すスペクトルパラメータとを含んでおり、前記再構成されたモデルパラメータを用いて前記フレー
ムの有声音声サンプルを生成し、符号化ビットの前記集合から変換係数ビットを抽出し、前記抽出された変換係数ビットから変換係数を再構成
し、前記再構成された変換係数を逆変換して逆変換サンプル
を生成し、前記逆変換サンプルは、クリティカルサンプ
リングおよび完全再構成特性を備えたオーバラップ変換
の逆を用いて生成され、前記逆変換サンプルから前記フレームの無声音声を生成
し、前記フレームの有声音声と前記フレームの無声音声を結
合して、デジタル音声サンプルの前記復号化されたフレ
ームを生成する、ことを含む、ことを特徴とする方法。
【請求項４１】音声信号を符号化ビットの集合に符号化
する方法であって、該方法は、前記音声信号をデジタル化してデジタル音声サンプルの
シーケンスを生成し、前記デジタル音声サンプルをフレームのシーケンスに分
割し、前記フレームの各々は複数のデジタル音声サンプ
ルにわたっており、前記フレームの音声モデルパラメータの集合を推定し、
前記音声モデルパラメータは、音声パラメータと、前記
フレームのピッチを表す少なくとも一つのピッチパラメ
ータと、前記フレームのスペクトル情報を表すスペクト
ルパラメータとを含み、前記スペクトルパラメータは前
記フレームの前記音声パラメータとは独立した形で推定
されたスペクトルマグニチュードの一つまたは二つ以上
の集合を含んでおり、前記モデルパラメータを量子化してパラメータビットを
生成し、前記フレームを一つまたは二つ以上のサブフレームに分
割し、前記サブフレームを表すデジタル音声サンプルの
変換係数を計算し、前記パラメータビットと前記変換ビットを符号化ビット
の前記集合に組み入れる、ことを含むことを特徴とする
方法。
【請求項４２】デジタル音声サンプルのフレームを符号
化ビットの集合に復号化する方法であって、該方法は、符号化ビットの前記集合からモデルパラメータビットを
抽出し、デジタル音声サンプルの前記フレームを表すモデルパラ
メータを、前記抽出されたモデルパラメータビットから
再構成し、前記モデルパラメータは、音声パラメータ
と、前記フレームのピッチ情報を表す少なくとも一つの
ピッチパラメータと、前記フレームのスペクトル情報を
表すスペクトルパラメータとを含んでおり、前記スペクトルマグニチュードから計算された再構成モ
デルパラメータと合成位相情報を用いて、前記フレーム
の有声音声サンプルを生成し、符号化ビットの前記集合から変換係数ビットを抽出し、前記抽出された変換係数ビットから変換係数を再構成
し、前記再構成された変換係数を逆変換して逆変換サンプル
を生成し、前記逆変換サンプルから前記フレームの無声音声を生成
し、前記フレームの有声音声と前記フレームの無声音声を結
合してデジタル音声サンプルの前記復号化フレームを生
成する、ことを含む、ことを特徴とする方法。