[go: up one dir, main page]

JP2001222297A - マルチバンドハーモニック変換コーダ - Google Patents

マルチバンドハーモニック変換コーダ

Info

Publication number
JP2001222297A
JP2001222297A JP2000360848A JP2000360848A JP2001222297A JP 2001222297 A JP2001222297 A JP 2001222297A JP 2000360848 A JP2000360848 A JP 2000360848A JP 2000360848 A JP2000360848 A JP 2000360848A JP 2001222297 A JP2001222297 A JP 2001222297A
Authority
JP
Japan
Prior art keywords
frame
bits
speech
transform
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000360848A
Other languages
English (en)
Inventor
John C Hardwick
シー.ハードウィック ジョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Voice Systems Inc
Original Assignee
Digital Voice Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Voice Systems Inc filed Critical Digital Voice Systems Inc
Publication of JP2001222297A publication Critical patent/JP2001222297A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】マルチバンドハーモニック変換コーダが開示さ
れている。 【解決手段】音声信号は、その音声信号をデジタル化す
ることによって符号ビットの集合に符号化されて、フレ
ームのシーケンスに分割されたデジタル音声サンプルの
シーケンスが得られ、フレームの各々は複数のデジタル
音声サンプルにスパンしている。音声モデルパラメータ
の集合がフレームについて推定される。音声モデルパラ
メータは、フレームを有声領域と無声領域に分割する音
声パラメータと、少なくともフレームの有声音領域のピ
ッチを表す少なくとも1つのピッチパラメータと、少な
くともフレームの有声音領域のスペクトル情報を表す少
なくとも1つのピッチパラメータとを含んでいる。音声
モデルパラメータは量子化され、パラメータビットが得
られる。フレームも1つまたは2つ以上のサブフレーム
に分割され、その変換係数が計算される。フレームの無
声領域の変換係数は量子化され、変換ビットが得られ
る。パラメータビットと変換ビットは符号化ビットの集
合に組み入れられる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声(speech)信号
やその他のオーディオ信号の符号化(エンコード)と、
復号化(デコード)に関する。
【0002】
【従来の技術】音声符号化と復号には非常に多数のアプ
リケーションがあり、幅広く研究されている。音声圧縮
(speech compression) としてしばしば言及されている
音声コーディング(speech coding) は、一般に、音声の
品質や明瞭性 (intelligibility) を実質的に低減する
ことなく、音声信号を表現するために必要とされるデー
タレートを低くすることを追求している。音声圧縮手法
は、スピーチコーダ (speech coder) によって実現する
ことが出来る。
【0003】スピーチコーダは、符号器(エンコーダ)
と復号器(デコーダ)を具備しているものと一般に見ら
れている。符号器は、音声のデジタル表現から圧縮され
たビットストリームを出力しており、この音声のデジタ
ル表現は、マイクロホンによって生成されたアナログ音
声信号を、アナログ−デジタルコンバータ (A/D conver
ter) を用いてサンプルし、およびデジタル化すること
によって生成されている。復号器は、圧縮ビットストリ
ームを、デジタル−アナログコンバータ (D/Aconverte
r) とスピーカを通して再生(プレイバック)するのに
適した、音声のデジタル表現に変換している。多くのア
プリケーションでは、符号器と復号器は物理的に分離さ
れ、ビットストリームは通信チャネルを用いて符号器と
復号器間で伝送されている。別の方法として、ビットス
トリームは、後の復号化とプレイバックに備えて、コン
ピュータまたは他のメモリにストアしておくことも可能
である。
【0004】スピーチコーダの主要パラメータは、該コ
ーダが達成する圧縮量であり、これは符号器から出力さ
れるビットストリームのビットレートで表されている。
復号器のビットレートは、一般的に、必要とする忠実度
(つまり、音声品質)および採用されるスピーチコーダ
のタイプの関数になっている。スピーチコーダは、タイ
プが異なるごとに、異なるビットレートで動作するよう
に設計されている。10kbps(秒当たりのキロビット数)
以下の中レートから低レートのスピーチコーダは、セル
ラテレホニ、衛星テレホニ、地上モバイル無線、インフ
ライト (in-flight) テレホニなどの、広範囲にわたる
モバイル通信アプリケーションで注目されている。これ
らのアプリケーションでは、典型的には、音声が高品質
であることと、音響雑音(アコースティックノイズ)と
チャネル雑音(例えば、ビット誤差)が原因で起こるア
ーティファクト (artifact) に強いことが要求されてい
る。中速から低速のデータレートで音声をコード化する
周知の手法は、線形予測符号化 (linear predictive co
ding LPC) をベースとしており、LPCは新しい音声
フレームの各々を、短期および/または長期予測子 (sho
rt and/or long term predictor) を用いて、先行サン
プルから予測することを試みている。予測誤差は、いく
つかの手法の一つを用いて量子化されているのが代表的
であり、その例としてCELP法および/またはマルチパル
ス法の二つがある。線形予測法は、時間的分解能(time
resolution) にすぐれているため、無声(unvoiced) サ
ウンドを符号化するのに役立っている。具体的には、時
間的分解能が破裂音 (plosives) や過渡信号 (transien
ts) にとって好都合であるのは、これらが全体的に、時
間的に、スミア (smear) されないからである。しか
し、線形予測は、有声音サウンドでは問題となることが
よくある。というのは、符号化された音声は、符号化さ
れた信号の不十分な周期のために、荒々しく聞こえた
り、かすれて聞こえたりする傾向があるからである。こ
のことは、特に、低データレートのときにあてはまり、
典型的には、低データレートは長めのフレームサイズを
必要とし、音声の周期的部分(つまり、有声部分)を再
現するのに非効率的な長期予測子を採用しているからで
ある。
【0005】低から中レートの音声符号化のための、別
の周知の手法として、ボコーダ (vocoder) としてしば
しば参照される、モデルベースのスピーチコーダがあ
る。ボコーダは、通常、短時間インターバルにわたる励
起信号(excitation signal)に対する、あるシステム
の応答として、音声をモデル化している。ボコーダシス
テムの例としては、MELPやLPC-10などの線形予測ボコー
ダ、準同型 (homomorphic) ボコーダ、チャネルボコー
ダ、シヌソイダル変換コーダ (sinusoidal transform c
oder STC)、ハーモニックボコーダ、マルチバンド励起
(multiband excitation MBE) ボコーダなどがあ
る。これらのボコーダでは、音声は短いセグメント(典
型的には、1040 ms)に分割され、各セグメントはモデ
ルパラメータの集合によって特徴付けられている。これ
らのパラメータは、セグメントのピッチ、音声状態、ス
ペクトルエンベロープ(spectral envelope;なお、sp
ectralは「スペクトル」と訳す)のように、各音声セグ
メントの少数の基本エレメントを表しているのが代表的
である。ボコーダは、これらのパラメータの各々に対し
て、いくつかの既知の表現のうちの一つを用いている。
例えば、ピッチは、ピッチ周期、基本周波数、または長
期予測遅延で表すことができる。同様に、音声状態(vo
icing state)は、一つまたは二つ以上のボイスングメ
トリックス(voicing metric)、ボイスング確率測度
(voicing probability measure)、あるいは、周期
的エネルギーと確率的 (stochastic) エネルギーとの比
率で表すこともできる。スペクトルエンベロープは、全
極フィルタ応答 (all-pole filter response) で表され
ることがよくあるが、スペクトルマグニチュード(spect
ral magnitude)、ケプストル(cepstral)係数、あるい
は他のスペクトル(spectral)測定量で表すこともでき
る。
【0006】少数のパラメータを用いて音声セグメント
を表現することができることから、ボコーダのような、
モデルベースのスピーチコーダは、典型的に、低データ
レートで動作させることができる。しかし、モデルベー
スのシステムの質は、基礎となるモデルの正確さに依存
している。従って、これらのスピーチコーダが高い音声
品質を達成するには、高い忠実度のモデルが使用されな
ければならない。
【0007】音声のあるタイプに対して良好に働くこと
が示されている一つのボコーダとして、ハーモニックボ
コーダ (harmonic vocoder) がある。ハーモニックボコ
ーダは、一般に、有声音声(voiced speech)を正確に
モデル化することができるが、これは、有声音声がある
短時間インターバルにわたって周期的となっているのが
一般であるからである。ハーモニックボコーダは、音声
の各短セグメントを、ピッチ周期と、ある種のボーカル
トラクトレスポンス (vocal tract response)で表して
いる。よく行われていることであるが、これらのパラメ
ータの一つまたは両方は周波数ドメインに変換され、基
本周波数およびスペクトルエンベロープとして表されて
いる。音声セグメントは、基本周波数の倍数の周波数と
スペクトルエンベロープに合致する振幅をもつ、ハーモ
ニック関係の正弦波の系列(シーケンス)を加算するこ
とによって、ハーモニックボコーダで合成されている。
ハーモニックボコーダによると、無声音声(unvoiced
speech)は、疎(スパース)な正弦波集合でモデル化す
ることが容易ではないため、無声音声を扱うことが困難
になることがよくある。初期のハーモニックボコーダ
は、オリジナル音声とハーモニックモデル化音声との差
分から計算された残差信号(residual signal)を通し
て無声音を間接的に処理し、その際、明示的な音声情報
は用いていなかった。この残差信号は、モデルパラメー
タと一緒にコード化されたため、総ビットレートが相対
的に高くなっていた。また、残差信号を除去すると、品
質が相対的に低下していた。別の手法では、フレーム全
体に対して有声/無声判断 (voiced/unvoiced decision)
が一回使用され、有声フレーム(voiced frame)では
モデルパラメータが加算され、無声フレーム(unvoiced
frame)ではスペクトラムが符号化されていた。フレ
ーム全体に対する音声判断(voicing decision)が一
回では不十分であり(音声の多くのセグメントはある領
域では有声化され、他の領域では無声音化される)、音
声エラー(voicing error)に対するシステムのセンシ
チビティ(感度)により、フレーム全体にマイナスの影
響を与えるため、この手法には問題がある。従前のハー
モニック符号化のスキーマは、有声音声(voiced speec
h)ではハーモニック位相を符号化する必要があり、無
声音声(unvoiced speech)ではクリチカルにサンプル
されたスペクトル表現を用いていない、という問題があ
る。このような制約があるため、ハーモニックマグニチ
ュードのような、他のパラメータを符号化するために利
用可能なビット数が制限されている。その結果、フレー
ムサイズは、妥当とする総ビットレートですべてのパラ
メータに使用できる十分なビット数を確保するために、
約30 msに増大されていた。残念ながら、大きなフレー
ムサイズを使用すると、システムの時間的分解能が低下
するため、無声音サウンドと過渡信号に対する性能が制
限されていた。
【0008】初期のハーモニックボコーダを改良したも
のとして、マルチバンド励起 (Multiband Excitation
MBE) 音声モデルとして発表されたものがある。こ
のモデルは、有声音声(voiced speech)のハーモニッ
ク表現を、フレキシブルで周波数依存音声構造と結合す
ることによって、自然に聞こえる無声音声(unvoicedsp
eech)を出力することを可能とし、音響背景雑音(アコ
ースティックバックグランドノイズ)の存在に対してロ
バスト(頑健)なものとしている。このような特性があ
るため、MBEモデルは、低から中のデータレートでよ
り高品質の音声を出力することが可能になったため、い
くつかの商用モバイル通信アプリケーションで使用され
ている。
【0009】MBE音声モデルは、ピッチを表す基本周
波数、バイナリ値の有声/無声 (voiced/unvoiced V/U
V) 判断あるいは他の音声メトリックスの集合、および
ボーカルトラクトの周波数応答を表すスペクトルマグニ
チュードの集合を用いて、音声のセグメントを表現して
いる。MBEモデルは、従来のセグメントごとに単一の
V/UV判断を、各々が特定の周波数帯または領域内での音
声状態(voicing state)を表している判断の集合に一
般化している。これによって、各フレームは、有声領域
と無声領域とに分割されている。このように声音モデル
の柔軟性(フレキシビリティ)が増したため、MBEモ
デルは、ある種の有声摩擦音(voiced fricatives)な
どの、混合有声サウンドを受け入れることが可能とな
り、音響背景雑音で壊されていた音声を正確に表現する
ことが可能となり、ある一つの判断(V/UV判断)におけ
るエラーに対するセンシティビティを低減している。広
範なテストの結果判明したことは、このように、一般化
すると、音声品質と明瞭性が向上することである。
【0010】MBEに基づくスピーチコーダの符号器
は、各音声セグメントのモデルパラメータの集合を推定
する。MBEモデルパラメータには、基本周波数(ピッ
チ周期の逆数)、音声状態(voicing state)を特徴付
けるV/UVメトリックスまたは判断の集合、および、スペ
クトルエンベロープを特徴付けるスペクトルマグニチュ
ードの集合が含まれている。各セグメントのMBEモデ
ルパラメータを推定した後、符号器はパラメータを量子
化してビットフレームを出力する。符号器は、オプショ
ンとして、これらのビットを、誤り訂正/検出符号(err
or correction/detection code)で保護してから、そ
の結果のビットストリームをインタリーブして、対応す
る復号器に送信することができる。
【0011】復号器は、受信したビットストリームを元
の個々のフレームに変換する。この変換の一部として、
復号器はデインタリービング(インタリーブの逆の処
理)と誤り制御復号化を行って、ビット誤りを訂正また
は検出することができる。その後、復号器は、ビットフ
レームを用いてMBEモデルパラメータを再構成し、復
号器は、そのパラメータを用いて、オリジナル音声に知
覚的に近い音声信号を合成する。復号器は、別々の有声
音成分と無声音成分を合成することができ、その後で有
声音成分と無声音成分を加算して、最終的音声信号を出
力することができる。
【0012】MBEベースのシステムでは、符号器は、
スペクトルマグニチュード(スペクトルの大きさ)を用
いて、推定基本周波数の各ハーモニック(高調波)にお
けるスペクトルエンベロープを表している。その後、符
号器は、各ハーモニック周波数のスペクトルマグニチュ
ードを推定する。各ハーモニックは、対応するハーモニ
ックを含んでいる周波数帯が、有声、または無声と宣言
されたかに応じて、有声、あるいは、無声であると指定
される。ハーモニック周波数が有声であると指定された
ときは、符号器は、マグニチュード推定器 (magnitude
estimator) を使用するが、これは、ハーモニック周波
数が無声であると指定されたとき使用されるマグニチュ
ード推定器とは異なっている。しかし、スペクトルマグ
ニチュードは、音声判断とは独立して推定されるのが一
般である。そのために、スピーチコーダは、音声の各ウ
ィンドウサブフレームに対して、高速フーリエ変換 (fa
stFourier transform FFT) を計算し、推定された
基本周波数の倍数である周波数領域にわたってエネルギ
ーを平均化する。この手法によると、推定されたスペク
トルマグニチュードから、FFTサンプリンググリッド
によって導入されるアーティファクト(artifacts;生
成物)を除去するための補正を行うことができる。
【0013】復号器では、有声ハーモニックと無声ハー
モニックが同定され、別々の有声成分と無声成分は、重
み付きオーバラップ加算手法 (weighted overlap-add m
ethod) を用いて白色信号をフィルタで除去することに
よって合成される。この手法で使用されるフィルタは、
有声であると指定されたすべての周波数帯をゼロにセッ
トし、他方、無声であると指定された領域では、スペク
トルマグニチュードが整合(matching)される。有声成
分(voiced component)は、チューンされたオシレー
タ・バンク (tuned oscillator bank) を用いて合成さ
れるが、有声であると指定された各ハーモニックに一つ
のオシレータが割り当てられている。瞬時の振幅、周波
数および位相は、隣接セグメントで、対応するパラメー
タに合致するように補間される。初期のMBEベースの
システムは、復号器によって受信されたビットに位相情
報を含めていたが、以後のMBEベースのシステムで取
り入れられた一つの重要な改良は、位相合成手法 (phas
e synthesis method) である。この手法によると、復号
器は、有声音声の合成で使用された位相情報を再生成で
きるので、位相情報を明示的に符号器に送信させる必要
がない。音声判断に基づくランダム位相合成は、IMB
E(商標)スピーチコーダの場合と同じように適用可能
である。別の方法として、復号器は、スムージングカー
ネル (smoothing kernel) を、再構成されたスペクトル
マグニチュードに適用すると、ランダムに得られた位相
情報よりも知覚的にオリジナル音声のそれに近い位相情
報を得ることができる。この種の位相再生成手法による
と、他のパラメータに割り当てることができるビット数
が増加するので、フレームサイズが短くなり、時間的分
解能が向上することになる。
【0014】MBEベースのボコーダは、IMBE(商
標)スピーチコーダとAMBE(登録商標)スピーチコ
ーダを含んでいる。AMBE(登録商標)スピーチコー
ダは、初期のMBEベース手法を改善するために開発さ
れたもので、強化された方法で励起パラメータ(基本周
波数と音声判断)を推定している。この手法は、実際の
音声に見られる変動や雑音をトラッキングする能力が改
善されている。AMBE(登録商標)スピーチコーダ
は、典型的には、16チャネルからなるフィルタバンクと
非線形性を利用してチャネル出力の集合を出力するの
で、励起パラメータはその出力から高信頼に推定するこ
とが可能になっている。チャネル出力は、結合された
後、基本周波数を推定するために処理される。その後、
複数の(例えば、8個)音声バンドの各々内のチャネル
は各音声バンドについて音声判断(または他の音声メト
リックス)を推定するために処理される。
【0015】上述したAMBE(登録商標)スピーチコ
ーダのような、ある種のMBEベースのボコーダは、オ
リジナル音声に非常に近い音声を生成する能力を備えて
いる。特に、有声サウンドは非常にスムーズで、周期的
であり、典型的には、線形予測スピーチコーダに見られ
るような荒々しさ(roughness)やしわがれ(hoarsenes
s)がない。テストで判明したことは、4 Kbps AMBE
(登録商標)スピーチコーダは、2倍のレートで動作す
るCELP型コーダのパフォーマンスに匹敵しているこ
とである。しかし、AMBE(登録商標)ボコーダに
は、無声音サウンドに若干の歪みがまだ見られ、これ
は、過剰な時間拡大(time spreading)によるもので
ある。その原因の一つは、任意の白色雑音信号が無声音
合成で使用され、これがオリジナル音声信号と相関がな
いことによる。これにより、無声音成分が、過渡的サウ
ンドをセグメント内に置くことが防止される。従って、
短アタック(short attack)または小パルスのエネル
ギーがセグメント全体にわたって拡散されるため、再構
成された信号に、「スラッシ (slushy)」なサウンドが
生じることになる。
【0016】上述した手法は、例えば、Flanagan著「音
声分析、合成および知覚(Speech Analysis, Synthesis
and Perception)」、Springer-Verlag, 1972, pp. 378-
386(周波数ベースの音声分析―合成システムが記載さ
れている)、Jayant他著「波形のデジタルコード化(Dig
ital Coding of Waveforms)」、Prentice-Hall, 1984
(音声コード化全般が記載されている)、米国特許第4,
885,790号(シヌソイダル処理手法が記載されてい
る)、米国特許第5,054,072号(シヌソイダルコード化
手法が記載されている)、Tribolet他著「音声の周波数
ドメインコード化 (Frequency Domain Coding of Speec
h)」、IEEE TASSP, Vol. ASSP-27, No. 5, Oct1979, p
p. 512-530(音声固有ATCが記載されている)、Almeida
他著「有声音声の非静止モデリング(Nonstationary Mod
eling of Voiced Speech)」、IEEE TASSP, Vol. ASSP-3
1, No. 3, June 1983, pp. 664-677(ハーモニックモデ
リングと関連コーダが記載されている)、Almeida他著
「可変周波数合成:改良ハーモニックコーディング方式
(Variable-Frequency Synthesis: An Improved Harmoni
cCoding Scheme)」、IEEE Proc. ICASSP 84, pp. 27.5.
1-27.5.4(多項有声音合成方法が記載されている)、Ro
drigues他著「8 KBITS/SECのハーモニックコード化(Har
monic Coding at 8 KBITS/SEC)」、Proc. ICASSP 87, p
p. 1621-1624(ハーモニックコーディング方法が記載さ
れている)、Quatieri他著「シヌソイダル表現に基づく
音声変換(Speech Transformation Based on a Sinusoid
al Representation)」、IEEE TASSP, Vol. ASSP-34, N
o. 6, Dec. 1986, pp. 1449-1986(シヌソイダル表現に
基づく分析−合成手法が記載されている)、McAulay他
著「音声のシヌソイダル表現に基づく中レートコード化
(Mid-Rate Coding Based ona Sinusoidal Representati
on of speech)」、Proc. ICASSP 85, pp. 945-948,Tamp
a, FL, March 26-29, 1985(シヌソイダル変換スピーチ
コーダが記載されている)、Griffin著「マルチバンド
励起ボコーダ(Multiband Excitation Vocoder)」、Ph.
D. Thesis, M.I.T, 1988(MBE音声モデルおよび8000
bps MBEスピーチコーダが記載されている)、Hardw
ick著「4.8 kbpsマルチバンド励起スピーチコーダ(A 4.
8 kbps Multi-Band Excitation Speech Coder)」、S.M.
Thesis, M.I.T, May 1988(4800 bps MBEスピーチ
コーダが記載されている)、Hardwick著「デュアル励起
音声モデル(The Dual Excitation Speech Model)」、P
h.D. Thesis, M.I.T, 1992(デュアル励起スピーチコー
ダが記載されている)、Princen他著「時間ドメインエ
リアシングキャンセレーションに基づくフィルタバンク
設計を使用したサブバンド/変換コーディング(Suband/T
ransform Coding Using Filter Bank Designs Based on
Time Domain Aliasing Cancellation)」、IEEE Proc.
ICASSP '87, pp. 2161-2164(TDAC原理を使用した改良
コサイン変換が記載されている)、Telecommunications
Industry Association (TIA)「APCO Project 25 ボコ
ーダの説明(APCO Project 25 Vocoder Descriptio
n)」、Version1.3, July 15, 1993, IS102BABA(APCO P
roject 25標準の7.2 kbps IMBE(商標)スピーチコ
ーダが記載されている)に記載されているが、これらは
すべて、引用により本明細書に組み込まれる。
【0017】
【発明が解決しようとする課題】本発明は、音声信号や
他の信号用の改良コーディング技術を提供している。こ
れらの技術によれば、有声音サウンド用のマルチバンド
ハーモニックボコーダは、トランジェント(transient
s;過渡信号) の処理能力が改善された、無声音サウン
ドをコーディングする新規方法と結合されている。その
結果、低データレートでの音声品質が改善されている。
これらの技術は、応用範囲が広く、そのひとつとして、
セルラテレホニ、デジタル無線、衛星通信などのアプリ
ケーションを含む、デジタル音声コミュニケーションが
ある。
【0018】
【課題を解決するための手段】一般的なアスペクト(視
点)において、上記技術は、音声信号を符号化ビットの
集合に符号化することを特徴としている。音声信号はデ
ジタル化され、一連のフレームに分割されるデジタル音
声サンプルのシーケンスが出力され、フレームの各々
は、複数のデジタルサンプルにわたって(スパンして)
いる。そのあと、音声モデルパラメータの集合がフレー
ムについて推定される。音声モデルパラメータは、フレ
ームを有声領域と無声領域に分割する音声パラメータ、
少なくともフレームの有声領域のピッチを表している少
なくとも一つのピッチパラメータ、および少なくともフ
レームの有声領域のスペクトル情報を表しているスペク
トルパラメータを含んでいる。音声モデルパラメータは
量子化され、パラメータビットとして出力される。
【0019】フレームも、一つまたは二つ以上のサブフ
レームに分割され、サブフレームを表すデジタル音声サ
ンプルについて変換係数が計算される。フレームの無声
領域の変換係数は量子化され、変換ビットが出力され
る。パラメータビットと変換ビットは符号化ビットの集
合に組み入れられる。
【0020】実施形態は、以下に説明する特徴の一つま
たは二つ以上を含むことが可能である。例えば、フレー
ムが周波数バンドに分割され、音声パラメータがフレー
ムの周波数バンドに対するバイナリ音声判断を含んでい
るときは、有声領域と無声領域に分割されると、少なく
とも一つの周波数バンドは有声であると指定され、一つ
の周波数バンドは無声であると指定されることになる。
ある種のフレームでは、周波数バンドはすべてが有声で
あると指定されるか、すべてが無声であると指定される
ことがある。
【0021】フレームのスペクトルパラメータには、フ
レームの音声パラメータとは独立した形で、有声領域と
無声領域の両方で推定された一つまたは二つ以上のスペ
クトルマグニチュードの集合を含めることもできる。フ
レームのスペクトルパラメータが一つまたは二つ以上の
スペクトルマグニチュードの集合を含んでいるときは、
これらは、以下のようにして、量子化することができ
る。すなわち、対数などの圧伸演算(companding opera
tion)を用いてすべてのスペクトルマグニチュードの集
合を圧伸し圧伸スペクトルマグニチュードの集合を出力
し、フレーム内の圧伸スペクトルマグニチュードの最終
集合を量子化し、フレーム内の量子化された圧伸スペク
トルマグニチュードの最終集合と、先行フレームからの
圧伸スペクトルマグニチュードの量子化された集合の間
で補間して補間スペクトルマグニチュードを生成し、圧
伸スペクトルマグニチュードの集合と補間スペクトルマ
グニチュードとの差分を決定し、スペクトルマグニチュ
ード間の決定された差分を量子化する。スペクトルマグ
ニチュードは、以下のようにして計算することができ
る。すなわち、デジタル音声サンプルをウィンドウ処理
してウィンドウ処理された音声サンプルを出力し、ウィ
ンドウ処理された音声サンプルのFFTを計算してFF
T係数を出力し、ピッチパラメータに対応する基本周波
数の倍数前後で、FFT係数のエネルギーを加算し、ス
ペクトルマグニチュードを加算エネルギーの平方根とし
て計算する。
【0022】変換係数は、クリティカルサンプリングお
よび完全再構成特性(perfect reconstruction propert
ies)を備えた変換を用いて計算することができる。例
えば、変換係数は、デジタル音声サンプルのオーバラッ
プウィンドウを用いて近隣サブフレームの変換係数を計
算するオーバラップ変換 (overlapped transform) を用
いて計算することができる。
【0023】変換係数を量子化して変換ビットを出力す
ることには、サブフレームのスペクトルエンベロープを
モデルパラメータから計算し、複数の候補係数の集合を
形成し、各々の候補係数の集合は一つまたは二つ以上の
候補ベクトルを結合し、結合候補ベクトルにスペクトル
エンベロープを掛けて形成されるようにし、変換係数の
最も近い候補係数の集合を複数の候補係数の集合から選
択し、選択した候補係数の集合のインデックスを変換ビ
ットに組み入れることを含めることが可能である。各候
補ベクトルは、既知プロトタイプベクトルまでのオフセ
ットと複数の符号ビットから形成することができ、この
場合、各符号ビットは候補ベクトルの一つまたは二つ以
上の要素の符号を変更するようになっている。選択され
る候補係数の集合は、複数の候補係数集合のうち、変換
係数との最も高い相関をもつ集合にすることができる。
【0024】変換係数を量子化して変換ビットを出力す
ることには、さらに、サブフレームの選択した候補ベク
トルの最良スケール因子(best scale factor)を計
算し、フレーム内のサブフレームのスケール因子を量子
化してスケール因子ビットを出力し、スケール因子ビッ
トを変換ビットに組み入れることを含めることが可能で
ある。フレーム内の異なるサブフレームのスケール因子
は、ジョイント量子化してスケール因子ビットを得るこ
とができる。このジョイント量子化には、ベクトル量子
化器が使用できる。
【0025】フレームシーケンス内の、あるフレームの
符号化ビット集合に含まれるビットの数は、フレームシ
ーケンス内の別フレームの符号化ビット集合に含まれる
ビットの数と異なったものにすることができる。この目
的のために、符号化には、符号化ビット集合に含まれる
ビットの数を選択し(この場合、その数はフレームごと
に変化させることができる)、選択したビット数をパラ
メータビットと変換ビットの間で割り当てることを含め
ることができる。フレームの符号化ビット集合に含まれ
るビットの数を選択することは、少なくともその一部
は、フレーム内のスペクトル情報を表すスペクトルマグ
ニチュード・パラメータと、先行フレーム内のスペクト
ル情報を表す先行スペクトルマグニチュード・パラメー
タとの間にどの程度の変更があるかに基づいて行うこと
ができる。変更の度合が大きいときは多数のビットを優
先し、変更の度合が小さいときは少数のビットを優先す
ることができる。
【0026】符号化手法は、符号器(エンコーダ)で実
現することができる。符号器は、デジタル音声サンプル
をフレームのシーケンスに分割する分割エレメントであ
って、フレームの各々が複数のデジタル音声サンプルを
含んでいるものと、フレームの音声モデルパラメータの
集合を推定する推定器とで構成することができる。音声
モデルパラメータは、フレームを有声領域と無声領域に
分割する音声パラメータ、少なくともフレームの有声領
域のピッチを表す少なくとも一つのピッチパラメータ、
および少なくともフレームの有声領域のスペクトル情報
を表すスペクトルパラメータを含むことが可能である。
符号器には、モデルパラメータを量子化してパラメータ
ビットを出力するパラメータ量子化器、フレームを一つ
または二つ以上のサブフレームに分割し、サブフレーム
を表すデジタル音声サンプルの変換係数を計算する変換
係数生成器(ジェネレータ)、フレームの無声領域内の
変換係数を量子化して変換ビットを出力する変換係数量
子化器、およびパラメータビットと変換ビットを結合し
て符号化ビットの集合を出力する結合器を含めることも
可能である。符号器のエレメントは、一つでも、二つ以
上でも、あるいは全部を、デジタル信号プロセッサで実
現することができる。
【0027】別の一般的なアスペクトでは、デジタル音
声サンプルのフレームは、符号化ビットの集合からモデ
ルパラメータビットを抽出し、デジタル音声サンプルの
フレームを表すモデルパラメータを抽出したモデルパラ
メータビットから再構成することによって、符号化ビッ
トの集合から復号化(デコード)される。モデルパラメ
ータは、フレームを有声領域と無声領域に分割する音声
パラメータ、少なくともフレームの有声領域のピッチ情
報を表す少なくとも一つのピッチパラメータ、および少
なくともフレームの有声領域のスペクトル情報を表すス
ペクトルパラメータを含んでいる。フレームの有声音声
サンプルは、再構成モデルパラメータから再現される。
【0028】変換係数ビットも、符号化ビットの集合か
ら抽出される。フレームの無声領域を表す変換係数は、
抽出した変換係数ビットから再構成される。再構成され
た変換係数は、逆変換され、逆変換サンプルが出力さ
れ、フレームの無声音声は、その逆変換サンプルから出
力される。フレームの有声音声とフレームの無声音声は
結合され、復号化されたデジタル音声サンプルのフレー
ムが出力される。
【0029】実施形態には、以下に説明する特徴の一つ
または二つ以上を含めることができる。例えば、フレー
ムが周波数バンドに分割され、音声パラメータがフレー
ムの周波数バンドのバイナリ音声判断を含んでいるとき
は、有声領域と無声領域に分割すると、少なくとも一つ
の周波数バンドは有声であると指定され、一つの周波数
バンドは無声音であると指定される。
【0030】フレームのピッチパラメータとスペクトル
パラメータには、一つまたは二つ以上の基本周波数およ
び一つまたは二つ以上のスペクトルマグニチュードの集
合を含めることができる。フレームの有声音声サンプル
は、スペクトルマグニチュードから計算された合成位相
情報を用いて得ることができ、少なくともその一部は、
ハーモニックオシレータ・バンクから出力させることが
できる。例えば、有声音声サンプルの低周波数部分は、
ハーモニックオシレータのバンクから出力させ、有声音
声サンプルの高周波数部分は、補間とともに逆(インバ
ース)FFTを用いて出力することができる。その場
合、補間は、少なくともその一部がフレームのピッチ情
報に基づいて行われる。
【0031】復号化(デコード)には、さらに、フレー
ムをサブフレームに分割し、再構成変換係数をグループ
に分け、再構成変換係数の各グループをフレーム内の異
なるサブフレームに関連付け、グループ内の再構成変換
係数を逆変換して対応するサブフレームに関連する逆変
換サンプルを出力し、連続するサブフレームに関連する
逆変換サンプルをオーバラップし、加算してフレームの
無声音声を出力することを含めることができる。逆変換
サンプルは、クリティカルサンプルおよび完全再構成特
性を備えたオーバラップ変換の逆を用いて計算すること
ができる。
【0032】再構成変換係数は、再構成モデルパラメー
タからスペクトル・エンベロープを計算し、変換係数ビ
ットから一つまたは二つ以上の候補ベクトルを再構成
し、候補ベクトルを結合し、結合した候補ベクトルにス
ペクトルエンベロープを掛けることによって再構成変換
係数を形成することにより、変換係数ビットから出力す
ることができる。候補ベクトルは、既知プロトタイプベ
クトルまでのオフセットと複数の符号ビットの使用によ
って変換係数ビットから再構成することができ、この場
合、各符号ビットは候補ベクトルの一つまたは二つ以上
の要素の符号を変更するようになっている。
【0033】復号化手法は、復号器(デコーダ)で実現
することができる。復号器は、符号化ビットの集合から
モデルパラメータビットを抽出するモデルパラメータ抽
出器と、デジタル音声サンプルのフレームを表すモデル
パラメータを、抽出したモデルパラメータビットから再
構成するモデルパラメータ再構成器とで構成することが
できる。モデルパラメータには、フレームを有声領域と
無声領域に分割する音声パラメータ、少なくともフレー
ムの有声領域のピッチ情報を表す少なくとも一つのピッ
チパラメータ、および少なくともフレームの有声領域の
スペクトル情報を表すスペクトルパラメータを含めるこ
とができる。復号器は、フレームの有声音声サンプルを
再構成モデルパラメータから出力する有声音声シンセサ
イザと、符号化ビットの集合から変換係数ビットを抽出
する変換係数抽出器と、フレームの無声領域を表す変換
係数を、抽出した変換係数ビットから再構成する変換係
数再構成器と、再構成変換係数を逆変換して逆変換サン
プルを出力する逆変換器と、フレームの無声音声を逆変
換サンプルから合成する無声音声シンセサイザと、フレ
ームの有声音声とフレームの無声音声を結合して復号化
デジタル音声サンプルのフレームを出力する結合器とで
構成することも可能である。復号器のエレメントは、一
つでも、二つ以上でも、あるいは全部をデジタル信号プ
ロセッサで実現することができる。
【0034】さらに別の一般的なアスペクトでは、音声
パラメータ、フレームのピッチを表す少なくとも一つの
ピッチパラメータ、およびフレームのスペクトル情報を
表すスペクトルパラメータを含む音声モデルパラメータ
は推定され、量子化されてパラメータビットが出力され
る。次に、フレームは一つまたは二つ以上のサブフレー
ムに分割され、サブフレームを表すデジタル音声サンプ
ルの変換係数は、クリティカルサンプリングおよび完全
再構成特性を備えた変換を用いて計算される。変換係数
の少なくとも一部は量子化されて変換ビットが出力さ
れ、この変換ビットはパラメータビットと一緒に符号化
ビットの集合に組み入れられる。
【0035】さらに別の一般的なアスペクトでは、デジ
タル音声サンプルのフレームは、符号化ビットの集合か
らモデルパラメータビットを抽出し、デジタル音声サン
プルのフレームを表すモデルパラメータを、抽出したモ
デルパラメータビットから再構成し、再構成したモデル
パラメータを用いてフレームの有声音声サンプルを出力
することによって、符号化ビットの集合から復号化され
る。さらに、変換係数ビットも、符号化ビットの集合か
ら抽出されて変換係数が再構成され、これは逆変換され
て、逆変換サンプルが出力される。逆変換サンプルは、
クリティカルサンプリングおよび完全再構成特性を備え
たオーバラップ変換の逆を用いて出力される。フレーム
の無声音声は逆変換サンプルから出力され、有声音声と
結合され、復号化されたデジタル音声サンプルのフレー
ムが出力される。
【0036】さらに別の一般的なアスペクトでは、音声
信号は、音声信号をデジタル化してデジタル音声サンプ
ルのシーケンスを出力し、それを各々が複数のサンプル
にスパンするフレームのシーケンスに分割することによ
って、符号化ビットの集合から符号化される。音声モデ
ルパラメータの集合はフレームについて推定される。音
声モデルパラメータは、音声パラメータ、フレームのピ
ッチを表す少なくとも一つのピッチパラメータ、および
フレームのスペクトル情報を表すスペクトルパラメータ
を含み、スペクトルパラメータは、フレームの音声パラ
メータとは独立した形で推定された一つまたは二つ以上
のスペクトルマグニチュードの集合を含んでいる。モデ
ルパラメータは量子化され、パラメータビットが出力さ
れる。
【0037】フレームは一つまたは二つ以上のサブフレ
ームに分割され、変換係数はサブフレームを表すデジタ
ル音声サンプルについて計算される。変換係数の少なく
とも一部は量子化されて、変換ビットが出力され、これ
らはパラメータビットと一緒に符号化ビットの集合に組
み入れられる。
【0038】さらに別の一般的なアスペクトでは、デジ
タル音声サンプルのフレームは符号化ビットの集合から
復号化される。モデルパラメータビットは符号化ビット
の集合から抽出され、抽出したモデルパラメータからの
デジタル音声サンプルのフレームを表すモデルパラメー
タが再構成される。モデルパラメータは音声パラメー
タ、フレームのピッチ情報を表す少なくとも一つのピッ
チパラメータ、およびフレームのスペクトル情報を表す
スペクトルパラメータを含んでいる。有声音声サンプル
は、再構成モデルパラメータと、スペクトルマグニチュ
ードから計算された合成位相情報とを用いて、フレーム
に対して出力される。
【0039】さらに、変換係数ビットも、符号化ビット
の集合から抽出され、変換係数は抽出した変換係数ビッ
トから再構成される。再構成された変換係数は逆変換さ
れ、逆変換サンプルが出力される。最後に、フレームの
無声音声は逆変換サンプルから出力され、有声音声と結
合されて、復号化されたデジタル音声サンプルのフレー
ムが出力される。
【0040】本発明のその他の利点は、添付図面を含む
以下の説明および特許請求の範囲に記載されている通り
である。
【0041】
【発明の実施の形態】図1を参照して説明すると、符号
器(エンコーダ)100は、例えば、マイクロホンやア
ナログ−デジタルコンバータを用いて出力可能なデジタ
ル音声(または他の音響信号)を処理する。符号器はこ
のデジタル音声信号を短フレームで処理し、この短フレ
ームはさらに一つまたは二つ以上のサブフレームに分割
されている。一般的に、モデルパラメータは、サブフレ
ームごとに、符号器と復号器によって推定され、処理さ
れる。一実施形態では、各20 msフレームは二つの10 ms
サブフレームに分割され、フレームはサンプリングレー
トが8 kHzの160個のサンプルを含んでいる。
【0042】符号器は、デジタル音声のパラメータ分析
(parameter analysis)110を行い、フレームの各
サブフレームに対してMBEモデルパラメータ(MBE
model parameter)を推定する。MBEモデルパラメ
ータは、サブフレームの基本周波数(ピッチ周期の逆
数)、サブフレームの音声状態を特徴付けるバイナリ有
声/無声 ("V/UV") 判断の集合、およびサブフレームの
スペクトルエンベロープを特徴付けるスペクトルマグニ
チュードの集合を含んでいる。
【0043】図2を参照して説明すると、MBEパラメ
ータ分析110は、デジタル音声105を処理し、基本
周波数の推定(estimate fundamental frequency)2
00と、音声判断の推定(estimate voicing descisio
ns)205とが含まれている。また、このパラメータ分
析110には、デジタル入力音声へのハミング(Hammin
g)ウィンドウのようなウィンドウ関数の適用(applying
a window function)210することも含まれている。
ウィンドウ関数210の出力データはFFT215によ
ってスペクトル係数に変換される。スペクトル係数は推
定された基本周波数と一緒に処理されて、スペクトルマ
グニチュード220が推定される。推定された基本周波
数、音声判断、およびスペクトルマグニチュードは結合
225され、各サブフレームのMBEモデルパラメータ
が出力される。
【0044】パラメータ分析110は、非線形オペレー
タをもつフィルタバンクを用いて各サブフレームの基本
周波数と音声判断を推定することができる。サブフレー
ムはN個の周波数バンド(N=8 が代表的)に分割され、バ
ンドごとに一つのバイナリ音声判断が推定される。バイ
ナリ音声判断は、関心のあるバンド幅(8 KHzサンプリ
ングレートのとき約4kHz)をカバーするN個の周波数バ
ンドごとの音声状態(つまり、1 = 有声(voiced)、0
= 無声(unvoiced))を表している。これらの励起パラ
メータの推定は米国特許第5,715,365号と第5,826,222号
に詳しく説明されているが、その内容は引用により本明
細書に含まれている。フレーム全体が無声音(unvoiced)
であると音声判断が示しているときは、推定された基本
周波数を破棄し、デフォルトの無声音基本周波数で置き
かえることによって、ビットが節減される。なお、デフ
ォルト無声音基本周波数はサブフレームレートの約半分
(つまり、200 Hz)にセットされているのが代表的であ
る。
【0045】励起パラメータが推定されると、次に、符
号器は、各サブフレームのスペクトルマグニチュードの
集合を推定する。フレームごとに二つのサブフレームが
あるので、二つのスペクトルマグニチュード集合がフレ
ームごとに推定される。サブフレームのスペクトルマグ
ニチュードは、155ポイントのハミングウィンドウのよ
うな、短オーバラップウィンドウを用いて、音声信号を
ウィンドウ処理し、そのウィンドウ処理された信号に対
してFFT(256ポイントが代表的)を計算することに
よって推定される。次に、推定された基本周波数の各ハ
ーモニック(高調波)前後のエネルギーが加算され、そ
の和の平方根が該ハーモニックのスペクトルマグニチュ
ードと指定される。スペクトルマグニチュードを推定す
る特定の方法は米国特許第5,754,974号に記載されてい
るが、その内容は引用により本明細書に含まれている。
【0046】2サブフレームの各々の音声判断、基本周
波数、およびスペクトルマグニチュードの集合はフレー
ムのモデルパラメータを形成する。しかし、モデルパラ
メータとその推定のために使用される方法は、さまざま
な変形が可能である。そのような変形として、代替また
は追加モデルパラメータを使用すること、あるいはパラ
メータが推定されるときのレートを変更することがあ
る。一つの重要な変形では、音声判断と基本周波数はフ
レームごとに一度だけ推定される。例えば、これらのパ
ラメータは、カレントフレームの最終サブフレームが現
れたのと同時に推定し、その後、カレントフレームの最
初のサブフレームが現れたとき補間することができる。
基本周波数の補間は、カレントフレームと直前のフレー
ム(「先行フレーム」)の両方の、最終サブフレームの
推定基本周波数間の幾何平均値を計算することで行うこ
とができる。音声判断の補間は、カレントフレームと先
行フレームの、最終サブフレームの推定判断の間で論理
OR演算を行い、有声を無声に優先させることで行うこ
とができる。
【0047】図1に戻って説明すると、パラメータ分析
110を行った後、符号器は量子化ブロック115を用
いて、推定モデルパラメータとデジタル音声を処理し、
各フレームの量子化ビットを出力する。符号器は、量子
化MBEモデルパラメータを用いてフレームの有声領域
を表現し、別々のMCT係数を用いてフレームの無声領
域を表現する。その後、符号器は、効率的なジョイント
量子化手法を用いてフレーム全体のモデルパラメータと
係数をジョイント量子化する。
【0048】モデルパラメータを量子化するには、さま
ざまな量子化方法が使用できる。例えば、いくつかの方
法と併用して成功している手法では、連続するサブフレ
ーム間の励起またはスペクトルパラメータをジョイント
量子化している。そのような方法として、米国特許出願
第08/818,130号と第08/818,137号に開示されているデュ
アルサブフレームスペクトル量子化があるが、その内容
は引用により本明細書に含まれている。基本周波数と音
声判断のような、ある種のモデルパラメータはサブフレ
ーム間で補間すると、符号化の必要がある情報量が低減
されることになる。
【0049】次に、図3を参照して説明すると、量子化
ブロック115には、量子化有声音情報を用いて、MB
EモデルパラメータビットとMCT係数ビットの間で使
用可能ビット数を配分するビットアロケーションエレメ
ント300が含まれている。MBEモデルパラメータ量
子化器305は、割り振られたビット数を用いて、フレ
ームの第1サブフレームのMBEモデルパラメータと、
そのフレームの第2サブフレームのMBEモデルパラメ
ータを量子化し、量子化モデルパラメータビット320
を出力する。量子化モデルパラメータビット320は、
V/UVエレメント325によって処理されて、有声音情報
が構築されるとともに、フレームの有声および/または
無声領域が特定される。量子化モデルパラメータビット
320は、スペクトルエンベロープエレメント330に
よっても処理され、各サブフレームのスペクトルエンベ
ロープが作成される。エレメント335は、V/UVエレメ
ントの出力を用いてサブフレームのスペクトルエンベロ
ープをさらに処理し、スペクトルエンベロープを有声領
域でゼロにセットする。
【0050】量子化ブロックのエレメント340は、デ
ジタル音声入力を受け取り、それをサブフレームおよび
/またはサブフレームのサブフレームに分割する。各サ
ブフレームまたはサブフレームのサブフレームは、修正
コサイン変換 (modified cosine transform MCT)
345によって変換され、MCT係数が出力される。
【0051】MCT係数量子化器350は、割り振られ
たビット数を用いて、無声領域のMCT係数を量子化す
る。MCT係数量子化器350は、エレメント355に
よって構築された候補ベクトルを用いてこれを行う。
【0052】図4を参照して説明すると、量子化は、手
続き(プロシージャ)400に従って進めることがで
き、そこでは、符号器は最初に有声/無声判断を量子化
する(ステップ405)。例えば、米国特許出願第08/9
85,262号に記載されているベクトル量子化方法を使用す
ると、少数のビット(3-8が代表的)を用いて音声判断
をジョイント量子化することができる。なお、上記特許
出願の内容は引用により本明細書に含まれている。別の
方法として、可変長コード化を音声判断に適用すると、
全体が無声音であるフレームを表すために1ビットが使
用され、フレームが少なくとも一部有声であるときだけ
追加音声ビットが使用されるので、パフォーマンスが向
上する。音声判断が最初に量子化されるのは、これらが
フレームの残余コンポーネントのビットアロケーション
に影響を与えるからである。
【0053】フレームの全体が有声でないとすると(ス
テップ410)、符号器は次のビット(6-16が代表的)
を用いて、サブフレームの基本周波数を量子化する(ス
テップ415)。一実施形態では、二つのサブフレーム
からの基本周波数は米国特許出願第08/985,262号に記載
されている方法を用いてジョイント量子化される。別の
実施形態は、主に一つの基本周波数がフレームごとに推
定されるとき使用されるものであるが、この実施形態で
は、基本周波数は、約19乃至123サンプルのピッチレン
ジにわたって、スカラー対数均一量子化器 (scalar log
uniform quantizer) を用いて量子化される。しかし、
フレームの全体が無声音であるときは、デフォルトの無
声音基本周波数が符号器と復号器の両方に分かっている
ので、基本周波数を量子化するためにビットは使用され
ない。
【0054】次に、符号器は、フレームの2サブフレー
ムに対するスペクトル大きさの集合を量子化する(ステ
ップ420)。例えば、符号器は、対数圧伸を用いて、
これらを対数(log)ドメインに変換できるので、予
測、ブロック変換、およびベクトル量子化を組み合わせ
て使用することができる。一つの方法は、最初に第2l
ogスペクトルマグニチュード(つまり、第2サブフレ
ームのlogスペクトルマグニチュード)を量子化し
(ステップ430)、その後、カレントフレームと先行
フレームの両方の量子化第2logスペクトルマグニチ
ュード間に補間することである(ステップ435)。こ
れらの補間振幅は、次に、第1logスペクトルマグニ
チュード(つまり、第1フレームのlogスペクトルマ
グニチュード)から減算され(ステップ440)、その
差分が量子化される(ステップ445)。この量子化差
分と、先行フレームとカレントフレームの両方からの第
2logスペクトルマグニチュードの両方を使用する
と、復号器は補間を繰り返し、差分を加算するので、カ
レントフレームの量子化第1logスペクトルマグニチ
ュードを再構成することができる。
【0055】第2logスペクトルマグニチュードは、
図5に示すプロシージャ500に従って量子化すること
ができる(ステップ430)。このプロシージャでは、
予測ログ大きさの集合が推定され、予測大きさが実際の
大きさから減算され、その結果の予測残余(つまり、差
分)の集合が量子化されている。プロシージャ500に
よれば、予測されたlog振幅は、先行フレームから
の、以前に量子化された第2logスペクトルマグニチ
ュードを補間し、再サンプリングすることによって形成
される(ステップ505)。線形補間は、先行フレーム
とカレントフレームの第2サブフレームに対する基本周
波数間の比率の倍数で再サンプリングして適用される。
この補間により、2サブフレーム間の基本周波数の変化
が補償される。
【0056】予測されたlog振幅が単位値(unity)
よりも小の値(0.65が代表的)でスケーリングされた後
(ステップ510)、平均値が除去されてから(ステッ
プ515)、第2logスペクトルマグニチュードから
減算される(ステップ520)。その結果の予測残差
(prediction residual)は少数のブロック(4個が代
表的)に分割される(ステップ525)。スペクトルマ
グニチュードの数は予測残余の数と等しくなっている
が、基本周波数で除したバンド幅(3.5 4kHzが代表
的)に応じてフレーム間で変化する。典型的な人間の音
声では、基本周波数は、約60 Hzと400 Hzの間で変化す
るので、スペクトルマグニチュードの数は同じように広
いレンジ(9 56が代表的)にわたって変化させること
ができ、量子化器は、その変化を考慮に入れる。
【0057】予測残差が複数のブロックに分割された後
(ステップ525)、離散コサイン変換 (Discrete Cos
ine Transform DCT) が各ブロックの予測残差に適用さ
れる(ステップ530)。各ブロックのサイズは、サブ
フレームの対(ペア)に対するスペクトルマグニチュー
ドの数のフラクションとして設定されるが、ブロックサ
イズは、低周波数から高周波数に増加して行くのが代表
的であり、ブロックサイズの総和は、対のサブフレーム
に対するスペクトルマグニチュードの数に等しくなって
いる(4ブロックでは、0.2, 0.225, 0.275, 0.3が代表
的なフラクションである)。4ブロックの各々からの最
初の2エレメントは8エレメント予測残差ブロック平均
(prediction residual block average PRBA) ベクトル
を形成するために使用される(ステップ535)。次
に、PRBAベクトルについてDCTが計算される(ステ
ップ540)。最初(つまり、DC)の係数はゲイン項
とみなされ、代表例として4-7ビットスカラ量子化器を
用いて別々に量子化される(ステップ545)。変換P
RBAベクトル中の残りの7エレメントが次にベクトル
量子化され(ステップ550)、そこでは、2-3パート
分割ベクトル量子化器が広く使用されている(典型的に
は、最初の3エレメントの9ビットに最後の4エレメン
トの7ビットを加える)。
【0058】PRBAベクトルが上記のように量子化される
と、次に、4個のDCTブロックの各々からの残りの上位係
数 (higher order coefficient HOC) が量子化される
(ステップ555)。代表例として、どのブロックから
も量子化されるHOCは4個までである。追加のHOC
があれば、それはゼロにセットされ、符号化されない。
HOCの量子化は、ブロック当たり約4ビットを使用す
るベクトル量子化器で行われるのが代表的である。
【0059】PRBAとHOCエレメントが上記のよう
に量子化されると、その結果のビットはカレントフレー
ムの符号器出力ビットに加えられ(ステップ560)、
逆のステップがとられて、復号器から見たときの量子化
スペクトル大きさが符号器で計算される(ステップ56
5)。符号器は、これらの量子化スペクトルマグニチュ
ードを格納しておき(ステップ570)、カレントフレ
ーム第1logスペクトルマグニチュードを量子化する
ときに使用されるようにし、後続フレームは符号器と復
号器の両方で利用できる情報だけを使用する。さらに、
これらの量子化スペクトルマグニチュードは、非量子化
第2logスペクトルマグニチュードから減算すること
ができ、もっと正確な量子化が必要であればそのスペク
トル誤差の集合をさらに量子化することができる。第2
logスペクトルマグニチュードを量子化する方法は、
米国特許第5,226,084号および米国特許出願第08/818,13
0号と第08/818,137号に詳しく説明されているが、その
内容は引用により本明細書に含まれている。
【0060】図6を参照して説明すると、第1logス
ペクトルマグニチュードの量子化はプロシージャ600
に従って行われ、そこでは、カレントフレームと先行フ
レームの両方の量子化第2logスペクトルマグニチュ
ード間に補間が行われる。代表例として、少数の異なる
候補補間スペクトルマグニチュードは、ペアの負でない
重みとゲイン項からなる3つのパラメータを用いて形成
される。候補補間スペクトルマグニチュードの各々は非
量子化第1logスペクトルマグニチュードと比較さ
れ、得られる二乗誤差が最小であるものが最良候補とし
て選択される。
【0061】異なる候補補間スペクトルマグニチュード
は、最初に、3サブフレーム間の基本周波数の変化を考
慮に入れて、カレントフレームと先行フレームの両方
の、以前に量子化された第2logスペクトルマグニチ
ュードを補間し、再サンプリングすることによって形成
される(ステップ605)。次に、候補補間スペクトル
マグニチュードの各々は、再サンプリングされた二つの
集合の各々を、二つの重みの一方だけスケーリングし
(ステップ610)、スケーリングされた集合を加え
(ステップ615)、定数のゲイン項を加算する(ステ
ップ620)によって形成される。実際には、計算され
る異なる候補補間スペクトルマグニチュードは2の小さ
なべき乗に等しくなっており(例えば、2, 4, 8, 16,
または32)、重みとゲイン項はそのサイズのテーブルに
格納されている。各集合は、それと、量子化される第1
logスペクトルマグニチュードとの二乗誤差を計算す
ることによって評価される(ステップ625)。誤差が
最小である補間スペクトルマグニチュードの集合が選択
され(ステップ630)、重みテーブルまでのインデッ
クスがカレントフレームの出力ビットに追加される(ス
テップ635)。
【0062】選択された補間スペクトルマグニチュード
の集合は、次に、量子化される第1logスペクトルマ
グニチュードから減算され、スペクトル誤差の集合が得
られる(ステップ640)。以下で説明するように、こ
のスペクトル誤差の集合は精度向上のためにさらに量子
化することができる。
【0063】モデルパラメータの量子化精度を向上する
方法には、いろいろな方法がある。しかし、ある種のア
プリケーションで利点のある一つの方法は、複数の量子
化層を使用することであり、そこでは、非量子化パラメ
ータと第1層の結果との誤差が第2層で量子化され、そ
の他の層も同じような働きをする。この階層化による方
法はスペクトルマグニチュードに適用することができ、
そこでは、上述した第1量子化層の結果として計算され
たスペクトル誤差に第2量子化層が適用されている。例
えば、一実施形態では、第2量子化層は、DCTでスペク
トル誤差を変換し、ベクトル量子化器を用いてこれらの
DCT係数のいくつかを量子化することによって実現され
ている。代表的な方法では、第1係数にゲイン量子化器
を使用すると共に、後続係数を分割ベクトル量子化して
いる。
【0064】第2レベルの量子化は、まず、カレントフ
レームの量子化第2スペクトルマグニチュードの再構成
時に計算された量子化予測残余に応じて、望みの数の追
加ビットを適応的に割り振ることによってスペクトル誤
差について行われている。一般的に、予測残差が大きけ
れば割り振られるビット数は多くなり、残差(これはl
ogドメインに入っている)がある量(0.67のように)
だけ増加すると、余分ビットが1個追加されるのが代表
的である。このビットアロケーション法は、ビットアロ
ケーションがlogスペクトルマグニチュード自体では
なく、予測残差に基づいている点で従来の手法と異なっ
ている。この方法によると、ビットアロケーションが先
行フレームのビット誤差に影響されないため、ノイズの
ある通信チャネルでパフォーマンスが向上するという利
点がある。
【0065】追加ビットが上記のように割り振られる
と、次に、ベクトル量子化が、連続するスペクトル誤差
の各小ブロックに適用される(ブロック当たり4が代表
的)。各ブロックに割り振られたビット数に応じて、異
なるサイズのベクトル量子化 (vector Quantization V
Q) テーブルが適用される。しかし、最大VQテーブル
は、異常に大きいテーブルが要求されないように制限さ
れている。割り振られたビット数が最大VQサイズを超え
ると、VQ誤差に対する第3層のスカラ量子化が適用され
る。さらに、記憶領域の必要量(storage requiremen
t)をさらに低減化するために、割り振られたビット数
が最大数未満であるときは、最大サイズのVQテーブルを
一つだけ用いて、サーチを少なくしている。
【0066】図4に示すように、両方のサブフレームの
スペクトルマグニチュードが量子化されると(ステップ
445)、次に、符号器は各サブフレームに対して音声
の修正コサイン変換 (MCT) または他のスペクトル変
換を計算する(ステップ450)。一つの重要な進歩
は、PrincenおよびBradleyに記載されている時間ドメイ
ンエリアシングキャンセレーション (time domain alia
sing cancellation TDAC)をベースとするMCTのよう
な、クリティカルサンプリング、オーバラップ変換の使
用である。この変換では、デジタル音声入力 s(k) のi
番目サブフレームから変換 Si (k) (0 < = k < K/2) を
計算している。 ここで、K/2は変換のサイズであり、典型的には、サブ
フレームのサイズに等しい。ウィンドウ関数w(n)(0 <=
n < K) は、隣接サブフレームに適用されるウィンドウ
間のオーバラップが50%までであるという制約がある。 対称(シメトリック)で(つまり、w(n) = w(K-1-
n))、この制約条件を満足する種々のウィンドウ関数が
使用できる。そのようなウィンドウ関数の一つとして、
ハーフサイン (half sine) 関数がある。 MCTまたは類似の変換は、この目的のために望ましい
特性をもっているため、無声音声を表現するために使用
されているのが代表的である。MCTは、完全再構成能
力とクリティカルサンプリング能力を兼ね備えた、オー
バラップ直交変換クラスのメンバである。これらの特性
が特に重要である理由はいくつかある。第一に、オーバ
ラッピングウィンドウによると、サブフレーム間の移行
がスムーズになり、サブフレームレートでの可聴ノイズ
が除去され、有声と無声間の移行が良好になる。第二
に、完全再構成特性によると、変換自体がアーティファ
クトを復号化音声に導入することが防止される。最後
に、クリティカルサンプリングによると、変換係数が入
力サンプルと同数に保たれるので、各係数を量子化する
ために残しておくことができるビット数が増加する。
【0067】符号器は、図7に示すプロシージャ700
に従ってスペクトル変換を生成する。各々のサブフレー
ムごとに、量子化されたlogスペクトルマグニチュー
ドの集合は、各MCTビンの中心に一致するように補間
または再サンプリングされる(ステップ705)。これ
により、i番目MCTサブフレームのスペクトルエンベ
ロープHi(k) (0 <= k < K/2) が得られる。 ここで、fはそのサブフレームの量子化基本周波数、lo
g m1 (0 <= 1 <= L) は、そのサブフレームの量子化l
ogスペクトルマグニチュードである。次に、スペクト
ルエンベロープは、そのサブフレームの音声判断と基本
周波数で判断された有声周波数領域にあるビンについて
はゼロにセットされる(ステップ710)。
【0068】図4に戻って説明すると、MCT係数は、
ベクトル量子化器を用いて量子化されるが(ステップ4
55)、そこでは、一緒にインタリーブされ、計算され
たスペクトルエンベロープを掛けたとき、そのサブフレ
ームの実際のMCT係数に対する相関を最大とする、一
つまたは二つ以上の候補ベクトルの組み合わせがサーチ
される(ステップ715)。候補ベクトルは、長プロト
タイプベクトルまでのオフセットからと、ベクトルのM
番目ごとのエレメントを+/-1だけスケーリングする、あ
らかじめ決めた符号ビット数によって構築される(ただ
し、Mは候補ベクトルごとの符号ビット数である)。典
型的には、候補ベクトルがとり得るオフセットの数は、
256(つまり、8ビット)のように、妥当な数に制限され
ており、追加ビットはすべて符号ビットとして使用され
る。例えば、11ビットが候補ベクトルに使用される場合
には、8ビットがオフセットに使用され、残りの3ビット
は符号ビットとなり、各符号ビットは候補ベクトルの、
3番目ごとのエレメントの符号を反転または非反転する
ことになる。
【0069】次に、サブフレームの候補ベクトルをすべ
て結合するためにインタリービングが使用される(ステ
ップ720)。候補ベクトルの連続する各エレメント
は、N番目ごとのMCTビンにインタリーブされる。こ
こで、Nは候補ベクトルの数である。代表的な実施形態
では、候補ベクトルは二つあり(N=2)、これらは偶数と
奇数のMCTビンにインタリーブされ、各候補ベクトル
のエレメント数はサンプルに含まれるサブフレームのサ
イズの半分になっている。インタリーブされた候補ベク
トルは、次に、スペクトルエンベロープが掛けられ(ス
テップ725)、量子化スケール因子αIによってスケ
ーリングされ、各サブフレームのMCT係数が再構成さ
れる。
【0070】次に、符号ビットが計算され、符号がフリ
ップされる(ステップ730)。そのあと、相関が計算
される(ステップ735)。考慮の対象となる候補ベク
トルの組み合わせが残っていなければ(ステップ74
0)、最高の相関をもつ組み合わせが選択され(ステッ
プ745)、オフセットと符号ビットが出力ビットに加
えられる(ステップ750)。
【0071】どのサブフレームの場合も、最良の候補ベ
クトルを見つけるプロセスでは、最高の相関をもつ可能
性のあるものが見つかるまで、N個の候補ベクトルの可
能な組み合わせの各々が、スペクトルエンベロープによ
ってスケールされ、非量子化MCT係数と突き合わせて
比較される必要がある。N個候補ベクトルの可能な全て
の組み合わせをサーチするためには、各々の候補ごと
に、プロトタイプベクトルまでの全ての可能なオフセッ
トと、全ての可能な符号ビットを考慮する必要がある。
しかし、符号ビットの場合には、各符号の最良のセッテ
ィングは、そのビットに影響を受けるエレメントが、対
応する非量子化MCT係数と正の相関をもつようにその
ビットをセットすれば、サーチされる可能性のあるオフ
セットだけが残されることになる。
【0072】処理時間が十分でないため、可能な限りの
オフセットを完全にサーチできない場合には、部分的サ
ーチプロセスを使用すると、より低い複雑度で、N個候
補ベクトルの良好な組み合わせを見つけることができ
る。一実施形態で使用される部分的サーチプロセスで
は、候補ベクトルごとに最良の可能性がいくつか (3-8)
が事前に選択され、事前選択された候補ベクトルのすべ
ての組み合わせが試みられ、最高相関をもつ組み合わせ
が最終的選択として選択される。選択された組み合わせ
を符号化するために使用されるビットには、その組み合
わせにインタリーブされたN個候補ベクトルの各々のオ
フセットビットと符号ビットが含まれている。
【0073】候補ベクトルの最良の可能な組み合わせが
選択されると(ステップ715)、次に、i番目サブフ
レームのスケール因子αiが計算され(ステップ75
5)、この計算では、非量子化MCT係数と選択された
候補ベクトルとの間の平均二乗誤差が最小限される。 上記において、Ci(k) は組み合わされた候補ベクトルを
示し、Hi(k) はスペクトルエンベロープ、Si(k) はi番
目サブフレームの非量子化MCT係数である。
【0074】次に、これらのスケール因子は、典型的に
は、ペア当たり少数のビット(例えば、1-6)を使用す
るベクトル量子化器を用いてペアで量子化される(ステ
ップ720)。典型的には、MCT係数を量子化するの
に利用できるビット数が多いときも、少ないときも、各
候補べクトルに割り振られるビット数(フレーム当たり
2ビットが代表的)とスケール因子に割り振られるビッ
ト数(サブフレーム当たり1ビットが代表的)は、それ
ぞれ上下に調整される。その結果、この方法によれば、
可変数のビットを受け入れることができるので、以下で
説明するように可変レートオペレーションが可能にな
る。
【0075】図1に戻って説明すると、量子化を行った
後、符号器は、オプションとして、順方向誤り制御 (fo
rward error control FEC) コーダ120を用いて
量子化ビットを処理すると、フレームの出力ビット12
5が得られる。これらの出力ビットは、例えば、復号器
に送ることも、以後の処理のために保管しておくことも
できる。結合器360は、量子化MCT係数ビットと量
子化モデルパラメータビットを結合し、フレームの出力
ビットを出力する。
【0076】例えば、4000 bpsでオペレーションすると
きは、符号器は、入力デジタル音声信号を、8 kHzサン
プリングレートの160サンプルからなる20 msフレームに
分割する。各フレームは、さらに2個の10 msフレームに
分割される。各フレームは80ビットで符号化され、その
一部または全部は、表1に示すようにMBEモデルパラ
メータを量子化するために使用される。フレーム全体が
無声音であるか(つまり、全無声音ケース(All Unvoice
d Case))、フレームの一部が有声であるか(つまり、
一部有声ケース(Some Voiced Case))によって、二つの
場合(case)が考えられる。全部無声音ビット (All Un
voiced Bit) と名付けた最初の有声音ビットは、どちら
の場合がフレームに対して使用されるかを復号器に指示
する。残りのビットは、ケースに応じて表1に示すよう
に割り振られる。
【0077】全無声音ケースでは、追加ビットは、有声
音情報にも基本周波数にも使用されない。一部有声ケー
スでは、有声音には3つの追加ビットが使用され、基本
周波数には7ビットが使用される。
【0078】ゲイン項は4ビットか6ビットで量子化さ
れるのに対し、PRBAベクトルは常に、9ビットプラス7
ビット分割ベクトル量子化器で量子化されるので、総計
16ビットになる。HOCは常に、4個の4ビット量子化器
(ブロック当たり1個)で量子化されるので、総計16ビ
ットになる。さらに、一部有声ケースでは、第1log
スペクトルマグニチュードに最良に合致する補間重みと
ゲイン項を選択するとき、3ビットが使用される。
【0079】 表1:4000 bps例の場合のモデルパラメータビットアロ
ケーション
【0080】全無声音ケースでモデルパラメータを量子
化するために使用される、フレーム当たりの総ビット数
は37であり、43ビットはMCT係数用に残されている。
このケースでは、39ビットは、選択された4候補ベクト
ルの組み合わせのオフセットと符号ビットを示すために
使用され(フレーム当たり2候補、候補当たり8オフセ
ットビット、3候補用2符号ビット、第4候補用1符号
ビット)、最後の4ビットは2個の2ビット量子化器を
用いて関連MCTスケール因子を量子化するために使用
される。
【0081】一部有声ケースでは、フレーム当たりの52
ビットは、モデルパラメータを量子化するために使用さ
れる。残りの28ビットは、MCT係数とスペクトルマグ
ニチュードの追加量子化層の間で配分される。ビットア
ロケーションは次のルールを用いて行われる。 MCTビットの数 = 28 * (無声音バンドの#)/6(最大2
8まで) 追加スペクトルマグニチュードビットの数 = 28 MC
Tビットの数 上記のようにスペクトルマグニチュードに割り当てられ
た追加ビットは、フレームの非量子化と量子化スペクト
ルマグニチュードの間の誤差を量子化するために使用さ
れる。スペクトルマグニチュード間のビットアロケーシ
ョンは、カレントフレームの第2logスペクトルマグ
ニチュードの量子化予測残余に基づいて行われる。MC
T係数に割り当てられたビットは分割され、90%はフレ
ーム当たりの4選択候補ベクトルのオフセットを示すた
めに使用され(このケースでは、使用できるオフセット
ビットの数は常に候補ベクトル当たり9未満であるの
で、符号ビットは使用されない)、残りの10%は、各々
がゼロ、1または2ビットを使用する、2個のベクトル
量子化器を用いてMCTスケール因子を量子化するため
に使用される。
【0082】無声音サウンドを表現し、変換係数で量子
化する方法は、さまざまに変形することができる。例え
ば、上述したMCTに代わる変換には、さまざまなもの
が他にもある。さらに、MCTまたは他の係数は、適応
ビットアロケーション、スカラ量子化、およびベクトル
量子化(代数、マルチステージ、分割VQまたは構造化コ
ードブック)手法の使用を含む、種々の方法で量子化す
ることができる。さらに、MCT係数のフレーム構造
は、モデルパラメータと同じサブフレーム構造を共用し
ないように変更することができる(つまり、MCT係数
にはあるサブフレームの集合を使用し、モデルパラメー
タには別のサブフレームの集合を使用する)。一つの重
要な変形では、各サブフレームは二つのサブサブフレー
ムに分割され、各サブサブフレームには別々のMCT変
換が適用される。その後、上述したのと同じ手法を用い
て、各サブサブフレームに半分のビットが適用される。
サブフレームについて計算された二つのスケール因子
(サブフレームの2サブサブフレームごとに一つスケー
ル因子)は一緒にベクトル量子化される。この手法の利
点は、複雑さが低く、モデルパラメータの数を増やさな
くても、時間分解能が最も必要とされる無声音声で、よ
り良い時間解像度が得られるということである。
【0083】これらの手法は、低周波数の無声領域でス
ペクトルエンベロープを減衰させるかまたはゼロにセッ
トするといったように、さらに洗練化された手法を含
む。典型的には、最初の数100ヘルツ(200-400 Hzが代表
的)に対してスペクトルエンベロープをゼロにセットす
ると、この周波数レンジでは無声音エネルギーは知覚的
に大きくなく、他方、背景雑音は目立つ傾向があるた
め、パフォーマンスが向上することになる。さらに、こ
れらの手法は、雑音除去方法の応用に適しているので、
MCT係数とスペクトルマグニチュードに作用させて、
符号器で利用できる有声音情報を活用することができ
る。
【0084】さらに、これらの手法の特徴は、固定レー
トモードでも、可変レートモードでも働く能力があるこ
とである。固定レートモードでは、各フレームは同数の
ビットを使用する設計になっているのに対し(つまり、
4000 bpsボコーダでは、20 msフレーム当たり80ビッ
ト)、可変レートモードでは、符号器は、選択可能なオ
プションのセットからレート(つまり、フレーム当たり
のビット数)を選択している。可変レートの場合には、
その選択は平均レートが低くなるように符号器によって
行われるが、品質を向上するようにフレームをコード化
するのが困難であるとき多くのビットを用いている。レ
ート選択は、最低の平均レートで最高品質を達成するた
めに、数回の信号測定に基づいて行うことができ、オプ
ションのボイス/サイレンスの識別を取り入れると、さ
らに向上させることができる。これらの手法では、この
ビットアロケーション方法によると固定レートでも、可
変レートでもオペレーションが可能になっている。
【0085】これらの手法によれば、ビットアロケーシ
ョンは、先行フレームで発生している可能性のあるビッ
ト・エラーに過剰に影響されることなく、利用可能なす
べてのビットを有効利用することを試みている。ビット
アロケーションは、カレントフレームの総ビット数の制
約を受けるため、これをパラメータとして考慮して符号
器と復号器の両方に与えられている。固定レートオペレ
ーションの場合には、総ビット数は望みのビットレート
とフレームサイズで決まる定数であるのに対し、可変レ
ートオペレーションの場合には、総ビット数はレート選
択アルゴリズムによって設定されるので、どちらの場合
も、これは外部から与えられるパラメートとして考える
ことができる。符号器は、MBEモデルパラメータを量
子化するために初期に使用されたビット数を総ビット数
から減算し、この中には、音声判断、基本周波数(すべ
てが無声音であればゼロ)、およびスペクトルマグニチ
ュードの集合の第1量子化層が含まれている。残りのビ
ットは、スペクトルマグニチュードの追加量子化層、サ
ブフレームMCT係数の量子化、またはその両方のため
に使用される。フレーム全体が無声音であるときは、残
りのビットはすべてが、MCT係数に適用されるのが代
表的である。フレーム全体が有声であるときは、残りの
ビットはすべてが、スペクトルマグニチュードの追加量
子化層または他のMBEモデルパラメータに割り振られ
るのが代表的である。一部が有声で、一部が無声音であ
るフレームのときは、残りのビットは、そのフレームに
含まれる有声音と無声音周波数バンドの数に比例して配
分されるのが一般である。このプロセスによると、高有
声音品質を達成する上で最も効果的である場合に残りビ
ットを使用できると共に、ビットアロケーションをフレ
ーム内で以前にコード化された情報に基づいて行うこと
により、先行フレームのビット誤差に影響されないよう
にすることができる。
【0086】図8を参照して説明すると、復号器800
は入力ビットストリーム805を処理する。この入力ビ
ットストリームには、符号器100によって生成された
ビット集合が含まれている。各集合は、デジタル信号1
05の符号化フレームに対応している。ビットストリー
ムは、例えば、符号器から送られてきたビットを受信す
るレシーバによって出力させることも、記憶装置(スト
レージデバイス)から取り出すこともできる。
【0087】符号器100がFECコーダを用いてビッ
トを符号化したときは、フレームの入力ビットの集合は
FEC復号器810に入力される。FEC復号器810
はそのビットを復号化して量子化ビットの集合を出力す
る。
【0088】復号器は、量子化ビットに対してパラメー
タ再構成815を行い、フレームのMBEモデルパラメ
ータを再構成する。復号器は、MCT係数再構成820
も行い、フレームの無声音部分に対応する変換係数を再
構成する。
【0089】フレームのすべてのパラメータが再構成さ
れると、次に、復号器は、有声音合成825と無声音合
成830を別々に行う。その後、復号器は、その結果
を、加算し(835)、デジタル−アナログコンバータ
とスピーカからのプレイバックに適した、フレームのデ
ジタル音声出力840を出力する。
【0090】復号器のオペレーションは、符号器とは逆
に行われ、符号器による出力ビットから各フレームのM
BEモデルパラメータとMCT係数が再構成され、その
後、再構成された情報から音声フレームが合成されるの
が一般である。復号器は、フレームに含まれるすべての
サブフレームの音声判断と基本周波数からなる励起パラ
メータを最初に再構成する。フレーム全体に対して推定
され、符号化される音声判断の集合が一つだけで、基本
周波数が一つだけの場合には、復号器は先行フレームで
受信された類似のデータで補間し、中間サブフレームの
基本周波数と音声判断を、符号器と同じように、再構成
する。また、フレーム全体が無声音であることを音声判
断が示していた場合には、復号器は、基本周波数をデフ
ォルトの無声音値に設定する。次に、復号器は、符号器
で使用された量子化プロセスの逆を行って、スペクトル
マグニチュードのすべてを再構成する。復号器は、符号
器で行われたアロケーションを再計算できるので、符号
器で使用されたすべての量子化層を、復号器で用いてス
ペクトルマグニチュードを再構成することができる。
【0091】フレームのモデルパラメータが再構成され
ると、次に、復号器は、各サブフレーム(または二つ以
上のMCT変換がサブフレームごとに行われる場合はサ
ブサブフレーム)のMCT係数を再生成する。復号器
は、符号器の場合と同じ方法で、各サブフレームのスペ
クトルエンベロープを再構成する。その後、復号器は、
このスペクトルエンベロープに、符号化オフセットと符
号ビットで示されたインタリーブ候補ベクトルを乗算す
る。次に、復号器は、各サブフレームのMCT係数を、
該当の復号化スケール因子でスケーリングする。その
後、復号器は、TDACウィンドウw(n) を用いて逆MCT
を計算し、i番目サブフレームの出力yi(n)を出力す
る。 上記プロセスは、サブフレーム(またはサブサブフレー
ム)ごとに繰り返され、連続するサブフレームからの逆
MCT結果は、サブフレーム間のアライメント(各々が
先行サブレームに対してK/2だけオフセットされてい
る)が正しくなるように、オーバラップ−加算(overla
p-add)を用いて結合され、そのフレームの無声音信号
が再構成される。
【0092】有声音信号は、各ハーモニックに一つが割
り当てられているハーモニックオシレータのバンクを用
い復号器によって別々に合成される。典型的なケースで
は、有声音声(voiced speech)は、一度に一つのサブ
フレームごとに合成され、モデルパラメータ用に使用さ
れた表現と一致するようにされる。合成境界は、各サブ
フレーム間に現れるので、有声音合成方法は、これらの
サブフレーム境界に、可聴な非連続性が発生しないよう
にする必要がある。各ハーモニックオシレータが連続す
るサブフレームを表すモデルパラメータ間で補間を行う
必要があるのは、この連続性条件のためである。
【0093】各ハーモニックオシレータの振幅は、線形
多項式となるように制約されているのが通常である。線
形振幅多項式のパラメータは、振幅がサブフレームにま
たがる対応するスペクトルマグニチュードの間に補間さ
れるようにセットされている。これは、ハーモニックの
単純な順序付け割り当てに従って行われるのが一般であ
る(例えば、第1オシレータは先行サブフレームとカレ
ントフレームの第1スペクトルマグニチュードの間に補
間し、第2オシレータはカレントサブフレームと先行サ
ブフレームの第2スペクトルマグニチュードの間に補間
し、以下同様にすべてのスペクトルマグニチュードが使
用されるまで続けられる)。しかし、無声音周波数バン
ドへ/からの移行を含む、ある種のケースでは、二つの
集合に含まれるスペクトルマグニチュードの数が等しく
ない場合や、あるいは基本周波数がサブフレーム間で余
りに変化する場合は、振幅多項式はスペクトルマグニチ
ュードの一つに整合されるのではなく、一方または他方
のエンドでゼロに整合される。
【0094】同様に、各ハーモニックオシレータの位相
は、二次または三次多項式となるように制約されてお
り、多項式係数は、位相とそのデリバティブ(派生位
相)が、開始および終了サブフレーム境界の両方で望み
の位相と周波数値に整合されるように選択されている。
サブフレーム境界での望みの位相は、明示的に伝送され
る位相情報から決定されるか、いくつかの位相再生成方
法によって決定される。l番目のハーモニックオシレー
タのサブフレーム境界での望みの周波数は、単純に基本
周波数を1倍したものに等しくなっている。各ハーモニ
ックオシレータの出力は、フレーム内のサブフレームご
とに加算され、その結果が無声音声に加算されて、カレ
ントフレームの合成音声が完成される。このプロシージ
ャの詳細は、本明細書の中で引用されている参考文献に
記載されている。一連の連続フレームに対してこの合成
プロセスを繰り返すと、連続するデジタル音声信号が得
られ、その信号をデジタル−アナログコンバータに出力
すれば、従来のスピーカからのプレイバックが可能にな
る。
【0095】図9を参照して、復号器のオペレーション
を要約する。図示のごとく、復号器は、各フレームの入
力ビットストリーム900を受信する。ビットアロケー
タ905は、再構成された有声音情報を用いてビットア
ロケーション情報をMBEモデルパラメータ再構成器9
10とMCT係数再構成器915に渡す。
【0096】MBEモデルパラメータ再構成器910
は、ビットストリーム900を処理し、受け取ったビッ
トアロケーション情報を用いてフレーム内のすべてのサ
ブフレームについてMBEモデルパラメータを再構成す
る。V/UVエレメント920は、再構成されたモデルパラ
メータを処理し、再構成された有声音情報を生成すると
共に、有声領域と無声領域を識別する。スペクトルエン
ベロープエレメント925は、再構成されたモデルパラ
メータを処理し、スペクトルマグニチュードからスペク
トルエンベロープを作成する。このスペクトルエンベロ
ープは、エレメント930によってさらに処理され、有
声領域がゼロにセットされる。
【0097】MCT係数再構成器915は、ビットアロ
ケーション情報、特定された有声領域、処理されたスペ
クトルエンベロープ、および候補ベクトルのテーブルを
用いて、各サブフレームまたはサブサブフレーの入力ビ
ットからMCT係数を再構成する。その後、各サブサブ
フレームについて逆MCT940が実行される。
【0098】MCT940の出力は、オーバラップ−加
算エレメント945によって結合され、フレームの無声
音声が出力される。
【0099】有声音声シンセサイザ950は、再構成さ
れたMBEモデルパラメータを用いて有声音声を合成す
る。
【0100】最後に、加算器955は、有声音声と無声
音声を加算し、デジタル−アンログコンバータとスピー
カからのプレイバックに適したデジタル音声出力960
を出力する。
【0101】高品質の合成音声を達成するために、有声
領域と無声領域間の移行を合成するための改良手法が提
供される。サブフレームのハーモニックが有声と無声の
間で変化すると、有声音合成プロシージャは、そのハー
モニックの振幅を、無声音サブフレームに対応するスブ
フレーム境界でゼロにセットする。これは、振幅多項式
を、無声音エンド(端)で、ゼロに整合することによっ
て行われる。この手法が従来の手法と異なっているの
は、ハーモニックが、有声音移行(voicing transitio
n)を受けるとき、振幅多項式に、線形または区分線形
の多項式が使用されない点にある。その代わりに、無声
音声を合成するために使用されるのと同じMCTウィン
ドウの二乗が使用される。有声音と無声音合成方法の間
で統一的ウィンドウを上記のように使用すると、追加の
アーティファクトを引き起こすことなく、移行がスムー
ズに処理されることになる。
【0102】合成プロシージャにはさまざまな種類のも
のがある。有声音声を合成する一つの顕著な方法は、最
初の少数の低周波数のハーモニック(典型的には7)に
だけハーモニックオシレータのバンクを使用し、その
後、補間、再サンプリングおよびオーバラップ−加算と
共にインバースFFT(逆FFT)を使用し、残りの高
周波数ハーモニックに関連する有声音声を合成すること
である。このハイブリッド法によると、複雑さを低減し
て高品質有声音声が合成される。この方法の詳細は、米
国特許第5,581,656号と第5,195,166号に記載されてい
る。なお、その内容は引用により本明細書に含まれてい
る。
【0103】さらに、位相再生成を復号器で使用する
と、位相情報を明示的に符号化し、送信しなくても、有
声音声の合成に必要な位相情報を得ることができる。典
型的には、このような位相再生成方法は、他の復号され
たモデルパラメータから近似位相信号を計算している。
米国特許第5,081,681号と第5,664,051号に記載されてい
る一つの方法では、復号された基本周波数と音声判断
(voicing decisions)を用いてランダムな位相値が計
算されている。なお、前記特許の内容は引用により本明
細書に含まれている。米国特許第5,701,390号に記載さ
れ、その内容が引用により本明細書に含まれている別の
方法では、サブフレーム境界のハーモニック位相は、ス
ムーズ化カーネルを、logスペクトルマグニチュード
に適用するか、あるいは最小位相または類似の大きさに
基づく位相再構成を行うことにより、音声大きさから復
号器で再生成されている。上記および他の位相再生成方
法によると、フレーム内の他のパラメータを量子化する
のにより多くのビットを割り振ることができるため、歪
みが減少し、フレームサイズが短くなり、時間分解能を
向上することになる。
【0104】復号化と音声合成方法の詳細と代替実施形
態は、上記の参考文献に記載されている。
【0105】その他の実施形態は本発明の範囲に属する
ものである。
【図面の簡単な説明】
【図1】音声符号器を示す簡略ブロック図である。
【図2】図2は、図1の音声符号器のパラメータ分析ブ
ロックと量子化ブロックを示すブロック図である。
【図3】図3は、図1の音声符号器のパラメータ分析ブ
ロックと量子化ブロックを示すブロック図である。
【図4】図4は、図1の音声符号器によって実行される
プロシージャを示すフローチャートである。
【図5】図5は、図1の音声符号器によって実行される
プロシージャを示すフローチャートである。
【図6】図6は、図1の音声符号器によって実行される
プロシージャを示すフローチャートである。
【図7】図7は、図1の音声符号器によって実行される
プロシージャを示すフローチャートである。
【図8】音声復号器を示す簡略ブロック図である。
【図9】図8の音声復号器の再構成ブロックと合成ブロ
ックを示すブロック図である。
【符号の説明】
100 符号器 105 デジタル音声 110 パラメータ分析 115 量子化ブロック 200 基本周波数 210 ウィンドウ関数 300 ビットアロケーションエレメント 305 MBEモデルパラメータ量子化器 310 MBEモデルパラメータ 315 MBEモデルパラメータ 330 スペクトルエンベロープエレメント 345 修正コサイン変換 (MCT) 350 MCT係数量子化器 800 復号器 810 FEC復号器 815 パラメータ再構成 825 有声合成 830 無声合成 840 デジタル音声出力 900 入力ビットストリーム 905 ビットアロケータ 910 MBEモデルパラメータ再構成器 915 MCT係数再構成器 920 V/UVエレメント 925 スペクトルエンベロープエレメント 935 候補ベクトル 940 MCT 945 オーラップ−加算 950 有声音声合成 955 加算器 960 デジタル音声出力
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 9/18 A

Claims (42)

    【特許請求の範囲】
  1. 【請求項1】音声信号を符号化ビットの集合に符号化す
    る方法であって、該方法が、 前記音声信号をデジタル化してデジタル音声サンプルの
    シーケンスを生成し、 前記デジタル音声サンプルをフレームシーケンスに分割
    し、前記フレームの各々は複数のデジタル音声サンプル
    にわたっており、 フレームに対する音声モデルパラメータの集合を推定
    し、前記音声モデルパラメータは、前記フレームを有声
    領域と無声領域に分割する音声パラメータ、少なくとも
    前記フレームの前記有声領域のピッチを表している少な
    くとも一つのピッチパラメータ、および少なくとも前記
    フレームの前記有声領域のスペクトル情報を表している
    スペクトルパラメータを含んでおり、 前記音声モデルパラメータを量子化してパラメータビッ
    トを生成し、 前記フレームを一つまたは二つ以上のサブフレームに分
    割し、前記サブフレームを表すデジタル音声サンプルの
    変換係数を計算し、 前記フレームの前記無声領域における前記変換係数を量
    子化して変換ビットを生成し、および、 前記パラメータビットと前記変換ビットを符号化ビット
    の前記集合に含ませる、ことを含む、ことを特徴とする
    方法。
  2. 【請求項2】請求項1に記載の方法において、前記フレ
    ームは、周波数バンドに分割され、前記音声パラメータ
    は、前記フレームの周波数バンドに関するバイナリ音声
    判断を含み、 有声領域と無声領域への前記分割が、少なくとも一つの
    周波数バンドを有声であると指定し、一つの周波数バン
    ドを無声であると指定するものである、ことを特徴とす
    る方法。
  3. 【請求項3】請求項1に記載の方法において、前記フレ
    ームの前記スペクトルパラメータは、前記フレームの前
    記音声パラメータとは独立した形で、有声領域と無声領
    域の両方に対して推定されたスペクトルマグニチュード
    の一つまたは二つ以上の集合を含んでいる、ことを特徴
    とする方法。
  4. 【請求項4】請求項3に記載の方法において、 対数などの圧伸演算を用いて前記フレーム内のすべての
    スペクトルマグニチュードの集合を圧伸して、圧伸され
    たスペクトルマグニチュードの集合を生成し、 前記フレーム内の圧伸されたスペクトルマグニチュード
    の最後の集合を量子化し、 前記フレーム内において、圧伸されたスペクトルマグニ
    チュードの前記量子化された最後の集合と、先行フレー
    ムから圧伸されたスペクトルマグニチュードのの量子化
    された集合との間で補間し、補間されたスペクトルマグ
    ニチュードを生成し、 前記圧伸されたスペクトルマグニチュードの集合と前記
    補間されたスペクトルマグニチュードとの差分を決定
    し、および、 前記スペクトルマグニチュード間の決定された差分を量
    子化する、ことを含む方法を用いて量子化されたスペク
    トルマグニチュードの一つまたは二つ以上の集合を、前
    記フレームの前記スペクトルパラメータが含んでいる、
    ことを特徴とする方法。
  5. 【請求項5】請求項4に記載の方法において、さらに、 前記デジタル音声サンプルをウィンドウ処理しウィンド
    ウ処理された音声サンプルを生成し、 前記ウィンドウ処理された音声サンプルのFFTを計算
    してFFT係数を出力し、 前記ピッチパラメータに対応する基本周波数の倍数付近
    における前記FFT係数のエネルギーを加算し、およ
    び、 前記スペクトルマグニチュードを前記加算されたエネル
    ギーの平方根として計算することによって、前記スペク
    トルマグニチュードを計算する、ことを含む、ことを特
    徴とする方法。
  6. 【請求項6】請求項3に記載の方法において、さらに、 前記デジタル音声サンプルをウィンドウ処理してウィン
    ドウ処理された音声サンプルを出力し、 前記ウィンドウ処理された音声サンプルのFFTを計算
    してFFT係数を出力し、 前記ピッチパラメータに対応する基本周波数の倍数付近
    でFFT係数のエネルギーを加算し、および、 前記スペクトルマグニチュードを前記加算エネルギーの
    平方根として計算することによって、前記スペクトルマ
    グニチュードを計算する、ことを含むことを特徴とする
    方法。
  7. 【請求項7】請求項1に記載の方法において、前記変換
    係数が、クリティカルサンプリングおよび完全再構成特
    性を備えた変換を用いて計算される、ことを特徴とする
    方法。
  8. 【請求項8】請求項1、2、3、4、5、6または7に
    記載の方法において、前記変換係数が、前記デジタル音
    声サンプルのオーバラップしたウィンドウを用いて、隣
    接サブフレームの変換係数を計算するオーバラップ変換
    を用いて計算される、ことを特徴とする方法。
  9. 【請求項9】請求項1、2、3、4、5、6または7に
    記載の方法において、前記変換係数を量子化して変換ビ
    ットを生成する処理が、 前記サブフレームのスペクトルエンベロープを前記モデ
    ルパラメータから計算するステップ、 候補係数の複数の集合を形成し、候補係数の各集合は一
    つまたは二つ以上の候補ベクトルを結合し、前記結合さ
    れた候補ベクトルを前記スペクトルエンベロープで乗ず
    ることによって形成されるステップ、 前記変換係数に最も近い候補係数の集合を、前記複数の
    候補係数集合から選択するステップ、および、 前記選択された候補係数の集合のインデックスを、前記
    変換ビットに組み入れるステップ、を含む、ことを特徴
    とする方法。
  10. 【請求項10】請求項9に記載の方法において、各候補
    ベクトルは、既知のプロトタイプベクトルへのオフセッ
    トと複数の符号ビットから形成され、各符号ビットは、
    前記候補ベクトルの一つまたは二つ以上の要素の符号を
    変更する、ことを特徴とする方法。
  11. 【請求項11】請求項9に記載の方法において、前記選
    択された候補係数の集合は、前記変換係数との最高の相
    関をもつ複数の候補係数の集合である、ことを特徴とす
    る方法。
  12. 【請求項12】請求項9に記載の方法において、前記変
    換係数を量子化して変換ビットを生成する処理が、さら
    に、 前記サブフレームの前記選択された候補ベクトルの最良
    スケール因子を計算するステップ、 前記フレーム内のサブフレームのスケール因子を量子化
    してスケール因子ビットを生成するステップ、および、 前記スケール因子ビットを前記変換ビットに組み入れる
    ステップ、を含む、ことを特徴とする方法。
  13. 【請求項13】請求項12に記載の方法において、前記
    フレーム内の異なるサブフレームのスケール因子は結合
    的(ジョイント的に)量子化されて、前記スケール因子
    ビットを生成する、ことを特徴とする方法。
  14. 【請求項14】請求項13に記載の方法において、前記
    ジョイント量子化は、ベクトル量子化器を用いる、こと
    を特徴とする方法。
  15. 【請求項15】請求項1、2、3、4、5、6または7
    に記載の方法において、前記フレームシーケンス中の一
    のフレームの符号化ビットの前記集合に含まれるビット
    の数が、前記フレームシーケンス中の第2のフレームの
    符号化ビットの前記集合に含まれるビットの数とは異な
    る、ことを特徴とする方法。
  16. 【請求項16】請求項1、2、3、4、5、6または7
    に記載の方法において、さらに、 符号化ビットの前記集合に含まれるビットの数を選択
    し、前記数はフレームごとに変化させることが可能であ
    り、および、 前記選択したビットの数をパラメータビットと変換ビッ
    トの間で割り当てる、ことを含む、ことを特徴とする方
    法。
  17. 【請求項17】請求項16に記載の方法において、ある
    フレームの符号化ビットの前記集合のビット数の選択
    が、少なくとも一部は、前記フレーム内のスペクトル情
    報を表すスペクトルマグニチュードパラメータと、先行
    フレーム内のスペクトル情報を表す先行スペクトルマグ
    ニチュードパラメータとの間の変化の度合に基づいてお
    り、前記変化の度合が大きいときは多数のビットが優先
    され、前記変化の度合が小さいときは少数のビットが優
    先される、ことを特徴とする方法。
  18. 【請求項18】デジタル音声サンプルのシーケンスを含
    むデジタル化音声信号を符号化ビットの集合に符号化す
    る符号器であって、該符号器は、 前記デジタル音声サンプルをフレームのシーケンスに分
    割する分割エレメント、ただし、前記フレームの各々は
    複数のデジタル音声サンプルを含んでおり、 一つのフレームの音声モデルパラメータの集合を推定す
    る音声モデルパラメータ推定器、ただし、前記音声モデ
    ルパラメータは、前記フレームを有声領域と無声領域に
    分割する音声パラメータ、少なくとも前記フレームの前
    記有声領域のピッチを表す少なくとも一つのピッチパラ
    メータ、少なくとも前記フレームの前記有声領域のスペ
    クトル情報を表すスペクトルパラメータを含んでおり、 前記モデルパラメータを量子化してパラメータビットを
    生成するパラメータ量子化器、 前記フレームを一つまたは二つ以上のサブフレームに分
    割し、前記サブフレームを表すデジタル音声サンプルの
    変換係数を計算する変換係数生成器、 前記フレームの無声領域内の前記変換係数を量子化して
    変換ビットを生成する変換係数量子化器、および、 前記パラメータビットと前記変換ビットを結合して前記
    符号化ビットの集合を出力する結合器を備えている、こ
    とを特徴とする符号器。
  19. 【請求項19】請求項18に記載の符号器において、前
    記分割エレメント、前記音声モデルパラメータ推定器、
    前記パラメータ量子化器、前記変換係数生成器、前記変
    換係数量子化器、および前記結合器の少なくとも一つ
    が、一つのデジタル信号プロセッサによって実現されて
    いる、ことを特徴とする符号器。
  20. 【請求項20】請求項19に記載の符号器において、前
    記分割エレメント、前記音声モデルパラメータ推定器、
    前記パラメータ量子化器、前記変換係数生成器、前記変
    換係数量子化器、および前記結合器が、前記デジタル信
    号プロセッサによって実現されている、ことを特徴とす
    る符号器。
  21. 【請求項21】請求項18に記載の符号器において、前
    記フレームのスペクトルパラメータは一つまたは二つ以
    上のスペクトルマグニチュードの集合を含み、 前記パラメータ量子化器は、 対数などの圧伸演算を用いて前記フレーム内の、すべて
    のスペクトルマグニチュードの集合を圧伸して、圧伸さ
    れたスペクトルマグニチュードの集合を出力し、 前記フレーム内の前記圧伸されたスペクトルマグニチュ
    ードの最後の集合を量子化し、 前記フレーム内の圧伸されたスペクトルマグニチュード
    の前記最後に量子化された集合と先行フレームからの圧
    伸されたスペクトルマグニチュードの量子化された集合
    との間で補間して、補間されたスペクトルマグニチュー
    ドを形成し、 前記圧伸されたスペクトルマグニチュードの集合と前記
    補間されたスペクトルマグニチュードとの差分を決定
    し、 前記スペクトルマグニチュード間で決定された差分を量
    子化することによって、前記スペクトルマグニチュード
    パラメータを量子化する動作を行う、ことを特徴とする
    符号器。
  22. 【請求項22】請求項18に記載の符号器において、前
    記音声モデルパラメータ推定器は、 前記デジタル音声サンプルをウィンドウ処理してウィン
    ドウ処理された音声サンプルを生成し、 前記ウィンドウ処理された音声サンプルのFFTを計算
    してFFT係数を生成し、 前記ピッチパラメータに対応する基本周波数の倍数付近
    で前記FFT係数のエネルギーを加算し、 前記スペクトルマグニチュードを前記加算エネルギーの
    平方根として計算することによって、前記スペクトルマ
    グニチュードを計算する、ことを特徴とする符号器。
  23. 【請求項23】請求項18に記載の符号器において、前
    記変換係数生成器は、前記デジタル音声サンプルのオー
    バラップウィンドウを用いて隣接するサブフレームの変
    換係数を計算するオーバラップ変換を用いて変換係数を
    生成する、ことを特徴とする符号器。
  24. 【請求項24】請求項18に記載の符号器において、前
    記変換係数量子化器は、前記モデルパラメータからサブ
    フレームのスペクトルエンベロープを計算し、 候補係数の複数の集合を形成し、候補係数の各集合は、
    一つまたは二つ以上の候補ベクトルを結合し、前記結合
    された候補ベクトルにスペクトルエンベロープを乗ずる
    ことによって形成され、 前記変換係数に最も近い候補係数の集合を、候補係数の
    複数の集合の中から選択し、 前記選択された候補係数の集合のインデックスを、前記
    変換ビットに組み入れることによって、前記変換係数を
    量子化して変換ビットを生成する、ことを特徴とする符
    号器。
  25. 【請求項25】請求項24に記載の符号器において、前
    記変換係数量子化器は、既知のプロトタイプベクトルへ
    のオフセットと複数の符号ビットから各候補ベクトルを
    形成し、各符号ビットは前記候補ベクトルの一つまたは
    二つ以上の要素の符号を変更するようにした、ことを特
    徴とする符号器。
  26. 【請求項26】符号化ビットの集合からデジタル音声サ
    ンプルのフレームを復号化する方法であって、該方法
    は、 符号化ビットの前記集合からモデルパラメータビットを
    抽出し、 デジタル音声サンプルの前記フレームを表すモデルパラ
    メータを、前記抽出されたモデルパラメータビットから
    再構成し、前記モデルパラメータは、前記フレームを有
    声領域と無声領域に分割する音声パラメータと、少なく
    とも前記フレームの有声領域のピッチ情報を表す少なく
    とも一つのピッチパラメータと、少なくとも前記フレー
    ムの有声領域のスペクトル情報を表すスペクトルパラメ
    ータとを含み、 前記フレームの有声音声サンプルを前記再構成されたモ
    デルパラメータから生成し、 前記符号化ビットの集合から変換係数を抽出し、 前記フレームの無声領域を表す変換係数を、前記抽出さ
    れた変換係数から再構成し、 前記再構成された変換係数を逆変換して逆変換サンプル
    を生成し、 前記フレームの有声音声を前記逆変換サンプルから生成
    し、 前記フレームの有声音声と前記フレームの無声音声を結
    合して、デジタル音声サンプルの前記復号化されたフレ
    ームを生成する、こと含むことを特徴とする方法。
  27. 【請求項27】請求項26に記載の方法において、前記
    フレームは周波数バンドに分割され、前記音声パラメー
    タは前記フレームの周波数バンドに関するバイナリ音声
    判断を含み、有声領域と無声領域への前記分割が、少な
    くとも一つの周波数バンドは有声、一つの周波数バンド
    は無声と指定するものである、ことを特徴とする方法。
  28. 【請求項28】請求項26に記載の方法において、前記
    フレームの前記ピッチパラメータと前記スペクトルパラ
    メータは、一つまたは二つ以上の基本周波数とスペクト
    ルマグニチュードの一つまたは二つ以上の集合を含んで
    いる、ことを特徴とする方法。
  29. 【請求項29】請求項28に記載の方法において、前記
    フレームの有声音声サンプルは、前記スペクトルマグニ
    チュードから計算された、合成位相情報を用いて生成さ
    れる、ことを特徴とする方法。
  30. 【請求項30】請求項26に記載の方法において、前記
    フレームの有声音声サンプルは、少なくとも一部がハー
    モニックオシレータのバンクによって生成される、こと
    を特徴とする方法。
  31. 【請求項31】請求項30に記載の方法において、前記
    有声音声サンプルの低周波数部分は前記ハーモニックオ
    シレータのバンクによって生成され、前記有声音声サン
    プルの高周波数部分は補間と共にインバースFFTを用
    いて生成され、前記補間は、少なくともその一部が前記
    フレームの前記ピッチ情報に基づいている、ことを特徴
    とする方法。
  32. 【請求項32】請求項26に記載の方法において、該方
    法は、さらに、 前記フレームをサブフレームに分割し、 前記再構成された変換係数をグループに分け、前記再構
    成された変換係数の各グループは前記フレーム内の異な
    るサブフレームと関連付けられており、 グループ内の再構成変換係数を逆変換して、対応するサ
    ブフレームに関連する逆変換サンプルを出力し、およ
    び、 連続するサブフレームに関連する逆変換サンプルをオー
    バラップして、加算し、前記フレームの無声音声を生成
    する、ことを含む、ことを特徴とする方法。
  33. 【請求項33】請求項32に記載の方法において、前記
    逆変換サンプルは、クリティカルサンプリングおよび完
    全再構成特性を備えたオーバラップした変換の逆を用い
    て計算される、ことを特徴とする方法。
  34. 【請求項34】請求項26に記載の方法において、 前記再構成されたモデルパラメータからスペクトルエン
    ベロープを計算し、 前記変換係数ビットから一つまたは二つ以上の候補ベク
    トルを再構成し、 前記候補ベクトルを結合し、前記結合候補ベクトルを前
    記スペクトルエンベロープで乗ずることによって前記再
    構成された変換係数を形成する、ことによって、前記再
    構成された変換係数が前記変換係数から生成される、こ
    とを特徴とする方法。
  35. 【請求項35】請求項34に記載の方法において、前記
    候補ベクトルが、既知プロトタイプベクトルまでのオフ
    セットと複数の符号ビットを用いることによって、前記
    変換係数ビットから再構成され、各符号ビットは、前記
    候補ベクトルの一つまたは二つ以上の要素の符号を変更
    する、ことを特徴とする方法。
  36. 【請求項36】符号化ビットの集合からデジタル音声サ
    ンプルのフレームを復号化する復号器であって、該復号
    器は、 符号化ビットの前記集合からモデルパラメータビットを
    抽出するモデルパラメータ抽出器、 デジタル音声サンプルの前記フレームを表すモデルパラ
    メータを、前記抽出されたモデルパラメータビットから
    再構成するモデルパラメータ再構成器、前記モデルパラ
    メータは、前記フレームを有声領域と無声領域に分割す
    る音声パラメータと、少なくともフレームの有声領域の
    ピッチ情報を表す少なくとも一つのピッチパラメータ
    と、少なくとも前記フレームの有声領域のスペクトル情
    報を表すスペクトルパラメータとを含んでおり、 前記再構成されたモデルパラメータから有声音声サンプ
    ルを出力する有声音声合成器、 符号化ビットの前記集合から変換係数ビットを抽出する
    変換係数抽出器、 前記フレームの無声領域を表す変換係数を、前記抽出さ
    れた変換係数ビットから再構成する変換係数再構成器、 前記再構成された変換係数を逆変換して逆変換サンプル
    を生成する逆変換器、 前記逆変換サンプルから前記フレームの無声音声を合成
    する無声音声合成器、および、 フレームの有声音声とフレームの無声音声を結合して、
    デジタル音声サンプルの復号化フレームを出力する結合
    器を備えている、ことを特徴とする復号器。
  37. 【請求項37】請求項36に記載の復号器において、前
    記モデルパラメータ抽出器、前記モデルパラメータ再構
    成器、前記有声音声合成器、前記変換係数抽出器、前記
    変換係数再構成器、前記逆変換器、前記無声音声合成
    器、および前記結合器の少なくとも一つが、一つのデジ
    タル信号プロセッサで実現されている、ことを特徴とす
    る復号器。
  38. 【請求項38】請求項37に記載の復号器において、前
    記モデルパラメータ抽出器、前記モデルパラメータ再構
    成器、前記有声音声合成器、前記変換係数抽出器、前記
    変換係数再構成器、前記逆変換器、前記無声音声合成
    器、および前記結合器が、前記デジタル信号プロセッサ
    で実現されている、ことを特徴とする復号器。
  39. 【請求項39】音声信号を符号化ビットの集合に符号化
    する方法であって、該方法は、 音声信号をデジタル化してデジタル音声サンプルのシー
    ケンスを生成し、 前記デジタル音声サンプルをフレームのシーケンスに分
    割し、前記フレームの各々は複数のデジタル音声サンプ
    ルにわたっており、 前記フレームの音声モデルパラメータの集合を推定し、
    前記音声モデルパラメータは、音声パラメータと、前記
    フレームのピッチを表す少なくとも一つのピットパラメ
    ータと、前記フレームのスペクトル情報を表すスペクト
    ルパラメータとを含んでおり、 前記モデルパラメータを量子化してパラメータビットを
    生成し、 前記フレームを一つまたは二つ以上のサブフレームに分
    割し、前記サブフレームを表す前記デジタル音声サンプ
    ルの変換係数を計算し、前記変換係数の計算は、クリテ
    ィカルサンプリングおよび完全再構成特性を備えた変換
    を用い、 前記変換係数の少なくとも一部を量子化して変換ビット
    を生成し、および、前記パラメータビットと前記変換ビ
    ットを符号化ビットの前記集合に組み入れる、ことを含
    む、ことを特徴とする方法。
  40. 【請求項40】符号化ビットの集合からデジタル音声サ
    ンプルのフレームを復号化する方法であって、該方法
    は、 符号化ビットの前記集合からモデルパラメータを抽出
    し、 デジタル音声サンプルの前記フレームを表すモデルパラ
    メータを再構成し、前記モデルパラメータは、音声パラ
    メータと、前記フレームのピッチ情報を表す少なくとも
    一つのピッチパラメータと、前記フレームのスペクトル
    情報を表すスペクトルパラメータとを含んでおり、 前記再構成されたモデルパラメータを用いて前記フレー
    ムの有声音声サンプルを生成し、 符号化ビットの前記集合から変換係数ビットを抽出し、 前記抽出された変換係数ビットから変換係数を再構成
    し、 前記再構成された変換係数を逆変換して逆変換サンプル
    を生成し、前記逆変換サンプルは、クリティカルサンプ
    リングおよび完全再構成特性を備えたオーバラップ変換
    の逆を用いて生成され、 前記逆変換サンプルから前記フレームの無声音声を生成
    し、 前記フレームの有声音声と前記フレームの無声音声を結
    合して、デジタル音声サンプルの前記復号化されたフレ
    ームを生成する、ことを含む、ことを特徴とする方法。
  41. 【請求項41】音声信号を符号化ビットの集合に符号化
    する方法であって、該方法は、 前記音声信号をデジタル化してデジタル音声サンプルの
    シーケンスを生成し、 前記デジタル音声サンプルをフレームのシーケンスに分
    割し、前記フレームの各々は複数のデジタル音声サンプ
    ルにわたっており、 前記フレームの音声モデルパラメータの集合を推定し、
    前記音声モデルパラメータは、音声パラメータと、前記
    フレームのピッチを表す少なくとも一つのピッチパラメ
    ータと、前記フレームのスペクトル情報を表すスペクト
    ルパラメータとを含み、前記スペクトルパラメータは前
    記フレームの前記音声パラメータとは独立した形で推定
    されたスペクトルマグニチュードの一つまたは二つ以上
    の集合を含んでおり、 前記モデルパラメータを量子化してパラメータビットを
    生成し、 前記フレームを一つまたは二つ以上のサブフレームに分
    割し、前記サブフレームを表すデジタル音声サンプルの
    変換係数を計算し、 前記パラメータビットと前記変換ビットを符号化ビット
    の前記集合に組み入れる、ことを含むことを特徴とする
    方法。
  42. 【請求項42】デジタル音声サンプルのフレームを符号
    化ビットの集合に復号化する方法であって、該方法は、 符号化ビットの前記集合からモデルパラメータビットを
    抽出し、 デジタル音声サンプルの前記フレームを表すモデルパラ
    メータを、前記抽出されたモデルパラメータビットから
    再構成し、前記モデルパラメータは、音声パラメータ
    と、前記フレームのピッチ情報を表す少なくとも一つの
    ピッチパラメータと、前記フレームのスペクトル情報を
    表すスペクトルパラメータとを含んでおり、 前記スペクトルマグニチュードから計算された再構成モ
    デルパラメータと合成位相情報を用いて、前記フレーム
    の有声音声サンプルを生成し、 符号化ビットの前記集合から変換係数ビットを抽出し、 前記抽出された変換係数ビットから変換係数を再構成
    し、 前記再構成された変換係数を逆変換して逆変換サンプル
    を生成し、 前記逆変換サンプルから前記フレームの無声音声を生成
    し、 前記フレームの有声音声と前記フレームの無声音声を結
    合してデジタル音声サンプルの前記復号化フレームを生
    成する、ことを含む、ことを特徴とする方法。
JP2000360848A 1999-11-29 2000-11-28 マルチバンドハーモニック変換コーダ Pending JP2001222297A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/447,958 US6377916B1 (en) 1999-11-29 1999-11-29 Multiband harmonic transform coder
US09/447958 1999-11-29

Publications (1)

Publication Number Publication Date
JP2001222297A true JP2001222297A (ja) 2001-08-17

Family

ID=23778441

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000360848A Pending JP2001222297A (ja) 1999-11-29 2000-11-28 マルチバンドハーモニック変換コーダ

Country Status (4)

Country Link
US (1) US6377916B1 (ja)
EP (1) EP1103955A3 (ja)
JP (1) JP2001222297A (ja)
AU (1) AU7174100A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004310088A (ja) * 2003-04-01 2004-11-04 Digital Voice Systems Inc 半レート・ボコーダ
JP5706445B2 (ja) * 2010-12-14 2015-04-22 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 符号化装置、復号装置およびそれらの方法

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6064955A (en) * 1998-04-13 2000-05-16 Motorola Low complexity MBE synthesizer for very low bit rate voice messaging
US7295974B1 (en) * 1999-03-12 2007-11-13 Texas Instruments Incorporated Encoding in speech compression
US7092881B1 (en) * 1999-07-26 2006-08-15 Lucent Technologies Inc. Parametric speech codec for representing synthetic speech in the presence of background noise
US7222070B1 (en) * 1999-09-22 2007-05-22 Texas Instruments Incorporated Hybrid speech coding and system
US6975984B2 (en) * 2000-02-08 2005-12-13 Speech Technology And Applied Research Corporation Electrolaryngeal speech enhancement for telephony
AU2001294974A1 (en) * 2000-10-02 2002-04-15 The Regents Of The University Of California Perceptual harmonic cepstral coefficients as the front-end for speech recognition
US6633839B2 (en) * 2001-02-02 2003-10-14 Motorola, Inc. Method and apparatus for speech reconstruction in a distributed speech recognition system
US6738739B2 (en) * 2001-02-15 2004-05-18 Mindspeed Technologies, Inc. Voiced speech preprocessing employing waveform interpolation or a harmonic model
US7243295B2 (en) * 2001-06-12 2007-07-10 Intel Corporation Low complexity channel decoders
JP4012506B2 (ja) * 2001-08-24 2007-11-21 株式会社ケンウッド 信号の周波数成分を適応的に補間するための装置および方法
WO2003046889A1 (en) * 2001-11-30 2003-06-05 Koninklijke Philips Electronics N.V. Signal coding
US20030135374A1 (en) * 2002-01-16 2003-07-17 Hardwick John C. Speech synthesizer
US7421304B2 (en) * 2002-01-21 2008-09-02 Kenwood Corporation Audio signal processing device, signal recovering device, audio signal processing method and signal recovering method
US7764716B2 (en) * 2002-06-21 2010-07-27 Disney Enterprises, Inc. System and method for wirelessly transmitting and receiving digital data using acoustical tones
KR100462611B1 (ko) * 2002-06-27 2004-12-20 삼성전자주식회사 하모닉 성분을 이용한 오디오 코딩방법 및 장치
US7970606B2 (en) * 2002-11-13 2011-06-28 Digital Voice Systems, Inc. Interoperable vocoder
KR100467326B1 (ko) * 2002-12-09 2005-01-24 학교법인연세대학교 추가 비트 할당 기법을 이용한 음성 부호화 및 복호화를위한 송수신기
US7027979B2 (en) * 2003-01-14 2006-04-11 Motorola, Inc. Method and apparatus for speech reconstruction within a distributed speech recognition system
US7634399B2 (en) * 2003-01-30 2009-12-15 Digital Voice Systems, Inc. Voice transcoder
US6915256B2 (en) * 2003-02-07 2005-07-05 Motorola, Inc. Pitch quantization for distributed speech recognition
US6961696B2 (en) * 2003-02-07 2005-11-01 Motorola, Inc. Class quantization for distributed speech recognition
US7272557B2 (en) * 2003-05-01 2007-09-18 Microsoft Corporation Method and apparatus for quantizing model parameters
DE10328777A1 (de) * 2003-06-25 2005-01-27 Coding Technologies Ab Vorrichtung und Verfahren zum Codieren eines Audiosignals und Vorrichtung und Verfahren zum Decodieren eines codierten Audiosignals
US20050065787A1 (en) * 2003-09-23 2005-03-24 Jacek Stachurski Hybrid speech coding and system
EP1881487B1 (en) * 2005-05-13 2009-11-25 Panasonic Corporation Audio encoding apparatus and spectrum modifying method
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
US7953595B2 (en) * 2006-10-18 2011-05-31 Polycom, Inc. Dual-transform coding of audio signals
KR101565919B1 (ko) * 2006-11-17 2015-11-05 삼성전자주식회사 고주파수 신호 부호화 및 복호화 방법 및 장치
EP1927981B1 (en) * 2006-12-01 2013-02-20 Nuance Communications, Inc. Spectral refinement of audio signals
US8036886B2 (en) * 2006-12-22 2011-10-11 Digital Voice Systems, Inc. Estimation of pulsed speech model parameters
JP4708446B2 (ja) * 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
US7761290B2 (en) * 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US7774205B2 (en) * 2007-06-15 2010-08-10 Microsoft Corporation Coding of sparse digital media spectral data
US8369638B2 (en) * 2008-05-27 2013-02-05 Microsoft Corporation Reducing DC leakage in HD photo transform
US8447591B2 (en) * 2008-05-30 2013-05-21 Microsoft Corporation Factorization of overlapping tranforms into two block transforms
US20100106269A1 (en) * 2008-09-26 2010-04-29 Qualcomm Incorporated Method and apparatus for signal processing using transform-domain log-companding
US8275209B2 (en) * 2008-10-10 2012-09-25 Microsoft Corporation Reduced DC gain mismatch and DC leakage in overlap transform processing
CN102396024A (zh) * 2009-02-16 2012-03-28 韩国电子通信研究院 使用自适应正弦波脉冲编码的用于音频信号的编码/解码方法及其设备
EP2249333B1 (en) * 2009-05-06 2014-08-27 Nuance Communications, Inc. Method and apparatus for estimating a fundamental frequency of a speech signal
JP5433696B2 (ja) * 2009-07-31 2014-03-05 株式会社東芝 音声処理装置
WO2011048741A1 (ja) * 2009-10-20 2011-04-28 日本電気株式会社 マルチバンドコンプレッサ
US20110257978A1 (en) * 2009-10-23 2011-10-20 Brainlike, Inc. Time Series Filtering, Data Reduction and Voice Recognition in Communication Device
RU2445718C1 (ru) * 2010-08-31 2012-03-20 Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Способ выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале
US9236058B2 (en) * 2013-02-21 2016-01-12 Qualcomm Incorporated Systems and methods for quantizing and dequantizing phase information
RU2684576C1 (ru) * 2018-01-31 2019-04-09 Федеральное государственное казенное военное образовательное учреждение высшего образования "Академия Федеральной службы охраны Российской Федерации" (Академия ФСО России) Способ выделения сегментов обработки речи на основе последовательного статистического анализа
US11270714B2 (en) 2020-01-08 2022-03-08 Digital Voice Systems, Inc. Speech coding using time-varying interpolation
CN112767956B (zh) * 2021-04-09 2021-07-16 腾讯科技(深圳)有限公司 音频编码方法、装置、计算机设备及介质
US12254895B2 (en) 2021-07-02 2025-03-18 Digital Voice Systems, Inc. Detecting and compensating for the presence of a speaker mask in a speech signal
US11990144B2 (en) 2021-07-28 2024-05-21 Digital Voice Systems, Inc. Reducing perceived effects of non-voice data in digital speech
US12451151B2 (en) 2022-04-08 2025-10-21 Digital Voice Systems, Inc. Tone frame detector for digital speech
US12462814B2 (en) 2023-10-06 2025-11-04 Digital Voice Systems, Inc. Bit error correction in digital speech

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05265499A (ja) * 1992-03-18 1993-10-15 Sony Corp 高能率符号化方法
JPH07225597A (ja) * 1994-02-15 1995-08-22 Hitachi Ltd 音響信号符号化、復号化方法及び装置
WO1995034956A1 (en) * 1994-06-13 1995-12-21 Sony Corporation Method and device for encoding signal, method and device for decoding signal, recording medium, and signal transmitting device
JPH10293600A (ja) * 1997-03-14 1998-11-04 Digital Voice Syst Inc 音声符号化方法、音声復号化方法、エンコーダ及びデコーダ
WO1999017279A1 (en) * 1997-09-30 1999-04-08 Siemens Aktiengesellschaft A method of encoding a speech signal
JPH11249699A (ja) * 1997-12-04 1999-09-17 Digital Voice Syst Inc 音声パラメータの合同量子化

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3706929A (en) 1971-01-04 1972-12-19 Philco Ford Corp Combined modem and vocoder pipeline processor
US3982070A (en) 1974-06-05 1976-09-21 Bell Telephone Laboratories, Incorporated Phase vocoder speech synthesis system
US3975587A (en) 1974-09-13 1976-08-17 International Telephone And Telegraph Corporation Digital vocoder
US4091237A (en) 1975-10-06 1978-05-23 Lockheed Missiles & Space Company, Inc. Bi-Phase harmonic histogram pitch extractor
US4422459A (en) 1980-11-18 1983-12-27 University Patents, Inc. Electrocardiographic means and method for detecting potential ventricular tachycardia
DE3266042D1 (en) 1981-09-24 1985-10-10 Gretag Ag Method and apparatus for reduced redundancy digital speech processing
AU570439B2 (en) 1983-03-28 1988-03-17 Compression Labs, Inc. A combined intraframe and interframe transform coding system
NL8400728A (nl) 1984-03-07 1985-10-01 Philips Nv Digitale spraakcoder met basisband residucodering.
US4583549A (en) 1984-05-30 1986-04-22 Samir Manoli ECG electrode pad
US4622680A (en) 1984-10-17 1986-11-11 General Electric Company Hybrid subband coder/decoder method and apparatus
US4885790A (en) 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
US5067158A (en) 1985-06-11 1991-11-19 Texas Instruments Incorporated Linear predictive residual representation via non-iterative spectral reconstruction
US4879748A (en) 1985-08-28 1989-11-07 American Telephone And Telegraph Company Parallel processing pitch detector
US4720861A (en) 1985-12-24 1988-01-19 Itt Defense Communications A Division Of Itt Corporation Digital speech coding circuit
US4797926A (en) 1986-09-11 1989-01-10 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech vocoder
US5054072A (en) 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
US5095392A (en) 1988-01-27 1992-03-10 Matsushita Electric Industrial Co., Ltd. Digital signal magnetic recording/reproducing apparatus using multi-level QAM modulation and maximum likelihood decoding
US5023910A (en) 1988-04-08 1991-06-11 At&T Bell Laboratories Vector quantization in a harmonic speech coding arrangement
US4821119A (en) 1988-05-04 1989-04-11 Bell Communications Research, Inc. Method and apparatus for low bit-rate interframe video coding
US4979110A (en) 1988-09-22 1990-12-18 Massachusetts Institute Of Technology Characterizing the statistical properties of a biological signal
JPH0782359B2 (ja) 1989-04-21 1995-09-06 三菱電機株式会社 音声符号化装置、音声復号化装置及び音声符号化・復号化装置
WO1990013112A1 (fr) 1989-04-25 1990-11-01 Kabushiki Kaisha Toshiba Codeur vocal
US5036515A (en) 1989-05-30 1991-07-30 Motorola, Inc. Bit error rate detection
US5081681B1 (en) 1989-11-30 1995-08-15 Digital Voice Systems Inc Method and apparatus for phase synthesis for speech processing
US5226108A (en) 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
US5216747A (en) 1990-09-20 1993-06-01 Digital Voice Systems, Inc. Voiced/unvoiced estimation of an acoustic signal
US5226084A (en) 1990-12-05 1993-07-06 Digital Voice Systems, Inc. Methods for speech quantization and error correction
US5247579A (en) 1990-12-05 1993-09-21 Digital Voice Systems, Inc. Methods for speech transmission
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
US5517511A (en) 1992-11-30 1996-05-14 Digital Voice Systems, Inc. Digital transmission of acoustic signals over a noisy communication channel
US5517595A (en) * 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation
CA2154911C (en) 1994-08-02 2001-01-02 Kazunori Ozawa Speech coding device
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5806038A (en) 1996-02-13 1998-09-08 Motorola, Inc. MBE synthesizer utilizing a nonlinear voicing processor for very low bit rate voice messaging
US6014622A (en) 1996-09-26 2000-01-11 Rockwell Semiconductor Systems, Inc. Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
US6161089A (en) * 1997-03-14 2000-12-12 Digital Voice Systems, Inc. Multi-subframe quantization of spectral parameters
US6094629A (en) * 1998-07-13 2000-07-25 Lockheed Martin Corp. Speech coding system and method including spectral quantizer
US6119082A (en) * 1998-07-13 2000-09-12 Lockheed Martin Corporation Speech coding system and method including harmonic generator having an adaptive phase off-setter
US6138092A (en) * 1998-07-13 2000-10-24 Lockheed Martin Corporation CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05265499A (ja) * 1992-03-18 1993-10-15 Sony Corp 高能率符号化方法
JPH07225597A (ja) * 1994-02-15 1995-08-22 Hitachi Ltd 音響信号符号化、復号化方法及び装置
WO1995034956A1 (en) * 1994-06-13 1995-12-21 Sony Corporation Method and device for encoding signal, method and device for decoding signal, recording medium, and signal transmitting device
JPH10293600A (ja) * 1997-03-14 1998-11-04 Digital Voice Syst Inc 音声符号化方法、音声復号化方法、エンコーダ及びデコーダ
WO1999017279A1 (en) * 1997-09-30 1999-04-08 Siemens Aktiengesellschaft A method of encoding a speech signal
JPH11249699A (ja) * 1997-12-04 1999-09-17 Digital Voice Syst Inc 音声パラメータの合同量子化

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004310088A (ja) * 2003-04-01 2004-11-04 Digital Voice Systems Inc 半レート・ボコーダ
JP5706445B2 (ja) * 2010-12-14 2015-04-22 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 符号化装置、復号装置およびそれらの方法

Also Published As

Publication number Publication date
EP1103955A3 (en) 2002-08-07
US6377916B1 (en) 2002-04-23
EP1103955A2 (en) 2001-05-30
AU7174100A (en) 2001-05-31

Similar Documents

Publication Publication Date Title
US6377916B1 (en) Multiband harmonic transform coder
US8200497B2 (en) Synthesizing/decoding speech samples corresponding to a voicing state
US8315860B2 (en) Interoperable vocoder
JP4112027B2 (ja) 再生成位相情報を用いた音声合成
JP3881943B2 (ja) 音響符号化装置及び音響符号化方法
US7957963B2 (en) Voice transcoder
RU2214048C2 (ru) Способ кодирования речи (варианты), кодирующее и декодирующее устройство
EP3039676B1 (en) Adaptive bandwidth extension and apparatus for the same
US6260009B1 (en) CELP-based to CELP-based vocoder packet translation
US5754974A (en) Spectral magnitude representation for multi-band excitation speech coders
US6199037B1 (en) Joint quantization of speech subframe voicing metrics and fundamental frequencies
US6067511A (en) LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech
US6081776A (en) Speech coding system and method including adaptive finite impulse response filter
US6078880A (en) Speech coding system and method including voicing cut off frequency analyzer
US6138092A (en) CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency
US6119082A (en) Speech coding system and method including harmonic generator having an adaptive phase off-setter
US6094629A (en) Speech coding system and method including spectral quantizer
JP2004310088A (ja) 半レート・ボコーダ
KR0155798B1 (ko) 음성신호 부호화 및 복호화 방법
JP4287840B2 (ja) 符号化装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100202

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100706

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101006

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101012

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101108

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101111

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101206

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101209

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110208

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110509

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110512

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110608

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110613

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120424