[go: up one dir, main page]

JP2013109381A - 信号圧縮方法及び装置 - Google Patents

信号圧縮方法及び装置 Download PDF

Info

Publication number
JP2013109381A
JP2013109381A JP2013051028A JP2013051028A JP2013109381A JP 2013109381 A JP2013109381 A JP 2013109381A JP 2013051028 A JP2013051028 A JP 2013051028A JP 2013051028 A JP2013051028 A JP 2013051028A JP 2013109381 A JP2013109381 A JP 2013109381A
Authority
JP
Japan
Prior art keywords
coefficient
autocorrelation coefficient
correction factor
white noise
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013051028A
Other languages
English (en)
Inventor
Fengyan Qi
フェンヤン チ
Lei Miao
レイ ミャオ
Jianfeng Xu
ジァンフェン シュー
Dejun Zhang
デジュン チャン
Qing Zhang
チン チャン
Herve Marcel Taddei
マーセル タディ ハーヴ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2013109381A publication Critical patent/JP2013109381A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

【課題】本発明は、可聴音(オーディオ、音声)圧縮に関し、信号圧縮方法及び装置に関する。
【解決手段】信号圧縮方法は、入力信号にウィンドウ関数を掛け、ウィンドウ処理された入力信号の、元の自己相関係数を計算し、元の自己相関係数に従って、白色雑音補正率又はラグウィンドウを計算し、元の自己相関係数と、白色雑音補正率と、ラグウィンドウとに従って、修正された自己相関係数を計算し、修正された自己相関係数に従って、線形予測係数を計算し、線形予測係数に従って、符号化されたビットストリームを出力することを含む。本発明による技術的解決法により、特殊な入力信号の不良条件の場合が回避され、修正された自己相関係数が、後続の圧縮のためにより適したものとなり、ロスレス符号器の圧縮効率と、ロッシー符号器の、再構築される発話信号の品質とが向上し、単純な動作のみが含まれるようになる。
【選択図】図1

Description

本発明は、可聴音(オーディオ、音声)圧縮に関し、特に、信号圧縮方法及び装置に関する。
発話(スピーチ)及び音声(オーディオ)信号を伝送及び記憶するための帯域幅を節約するために、発話及び音声符号化技術が広く適用されている。現在、これらの符号化技術は、主として、ロッシー(lossy)符号化及びロスレス(lossless)符号化技術に分類さ
れる。
線形予測(LP)分析は、ロスレス圧縮符号化において、入力信号のダイナミックレンジを減らすため、及び信号の近接標本点(near sample points)の冗長性をなくすために広く適用されているが、帯域幅拡張は、ロスレス符号化において一般的には適用されていない。
ロッシー符号化であるG.729では、自己相関係数にラグウィンドウを掛けることによって、帯域幅拡張技術が適用される。LP分析をより安定させることを目的として、レビンソン−ダービンアルゴリズムによってLP係数を計算する前に、60Hzの帯域幅拡張が実行される。従来技術における、LP係数を計算するステップは、以下の通りである。
1.入力信号にウィンドウ関数を掛け、自己相関係数を計算する。r(0)、r(1)...r(p)、ここで、pはLPの次数。
2.自己相関係数の重み因子winlagを計算する。
winlag(k)=exp[(−1/2)(2πf0k/fs2
k=1,...,p
上式で、f0は、f0=60Hzなどの、定数であり、fsは、8000Hzなどの、信号標本化周波数であり、pは、LP分析の次数(10など)である。
3:白色雑音補正率が、winlag(0)=1.0001であることを決定する。
4.調節された自己相関係数を計算する。
r(0)’=winlag(0)r(0)
r(k)’ =winlag(k)r(k) k=1,...,p
5.調節された自己相関係数を使用して、新たなLP係数を、レビンソン−ダービンアルゴリズムを介して計算する。
従来技術では、各フレーム信号が同じように処理される。
LP分析は、ロスレス圧縮符号化において、入力信号のダイナミックレンジを減らすため、及び信号の近接標本点の冗長性をなくすために広く適用されている。
本発明を実施するプロセスにおいて、発明者は、従来技術における少なくとも以下の欠点を見出した。全ての信号が同じように処理されるため、一部の特殊な入力信号に対して、不良条件の場合が発生する可能性があり、自己相関行列の解決が不安定となり、これは、ロスレス符号器の低い圧縮効率と、ロッシー符号器の、再構築される発話信号の低い品質とをもたらす。
本発明の実施形態は、異なる信号が信号特徴に従って異なるように処理され、それにより、特殊な入力信号によって生成される不良条件の場合が回避され、音声圧縮効率と、再構築される発話信号の品質とが向上するような、信号圧縮方法及び装置を提供する。
信号圧縮方法は、
入力信号にウィンドウ関数を掛け、
ウィンドウ処理された入力信号の、元の自己相関係数を計算し、
元の自己相関係数に従って、自己相関係数補正率を調節し、
元の自己相関係数と、調節された自己相関係数補正率とに従って、修正された自己相関係数を計算し、
修正された自己相関係数に従って、線形予測係数を計算し、
線形予測係数に従って、入力信号を符号化し、符号化されたビットストリームを出力すること
を含む。
別の信号圧縮方法は、
入力信号にウィンドウ関数を掛け、
ウィンドウ処理された入力信号の、元の自己相関係数を計算し、
元の自己相関係数の第1の係数に従って、エネルギーパラメータを計算し、エネルギーパラメータに従って、白色雑音補正率を調節し、
拡張帯域幅に従って、ラグウィンドウを計算し、
元の自己相関係数と、調節された白色雑音補正率と、ラグウィンドウとに従って、修正された自己相関係数を計算し、
修正された自己相関係数に従って、線形予測係数を計算し、
線形予測係数に従って、入力信号に対する線形予測を実行し、残留信号を計算し、残留信号を符号化し、符号化されたビットストリームを出力すること
を含む。
信号圧縮装置は、
入力信号にウィンドウ関数を掛けるように構成された、ウィンドウ処理ユニットと、
ウインドウ処理ユニットによって処理された入力信号の、元の自己相関係数を計算するように構成された、元の自己相関係数計算ユニットと、
元の自己相関係数計算ユニットによって計算された元の自己相関係数に従って、自己相関係数補正率を調節し、元の自己相関係数と、調節された自己相関係数補正率とに従って、修正された自己相関係数を計算するように構成された、帯域幅拡張ユニットと、
帯域幅拡張ユニットによって計算された、修正された自己相関係数に従って、線形予測係数を計算するように構成された、線形予測係数計算ユニットと、
線形予測係数計算ユニットによって計算された線形予測係数に従って、入力信号を符号化し、符号化されたビットストリームを出力するように構成された、圧縮ユニットと
を含む。
本発明の実施形態による技術的解決法では、元の自己相関係数に従って、自己相関補正率が調節され、その結果、調節された自己相関係数補正率は、入力信号の違いを表現することができ、それにより、特殊な入力信号の不良条件の場合が回避され、修正された自己相関係数が、後続の圧縮処理のためにより適したものとなり、ロスレス符号器の圧縮効率と、ロッシー符号器の、再構築される発話信号の品質とが向上し、単純な動作のみが含まれるようになる。
添付の図面は、本発明を限定するものではなく、本発明のより良い理解を意図するものであり、本出願の一部を成す。
本発明の第1の実施形態における信号圧縮方法のフローチャートである。 本発明の第2の実施形態における信号圧縮方法のフローチャートである。 本発明の第3の実施形態における信号圧縮方法のフローチャートである。 本発明の第4の実施形態における信号圧縮方法のフローチャートである。 本発明の第5の実施形態における信号圧縮装置の構成を示す。 本発明の第6の実施形態における信号圧縮装置の構成を示す。 本発明の第6の実施形態における信号圧縮装置の、帯域幅拡張ユニットの構成を示す。 本発明の第7の実施形態における信号圧縮装置の構成を示す。 本発明の第7の実施形態における信号圧縮装置の、帯域幅拡張ユニットの構成を示す。 本発明の第6又は第7の実施形態における帯域幅拡張ユニットの、別の構成を示す。
本発明の技術的解決策、目的、及び利点を明確にするために、本発明について、添付の図面及び例示的実施形態を参照して以下で詳細に説明する。本発明の例示的実施形態及びその説明は、本発明を限定することではなく、解釈することを意図するものである。
本発明の実施形態は、信号圧縮方法及び装置を提供する。本発明の実施形態について、添付の図面を参照して以下で詳細に説明する。
第1の実施形態
図1は、本発明の第1の実施形態における信号圧縮方法のフローチャートである。方法は以下のステップを含む。
ステップ101:入力信号にウィンドウ関数を掛ける。
ステップ102:ウィンドウ処理された入力信号の、元の自己相関係数を計算する。
ステップ103:元の自己相関係数に従って、自己相関係数補正率を調節する。
ステップ104:元の自己相関係数と、調節された自己相関係数補正率とに従って、修正された自己相関係数を計算する。
自己相関係数補正率は、白色雑音補正率とラグウィンドウとを含む。自己相関係数補正率を調節することは、白色雑音補正率とラグウィンドウとを調節すること、又は、白色雑音補正率のみを調節すること、又はラグウィンドウのみを調節することであってもよい。
元の自己相関係数に従って、自己相関係数補正率を調節することは、元の自己相関係数に従って、入力信号の特徴パラメータを決定し、特徴パラメータに従って、自己相関係数補正率を調節することであってもよい。特徴パラメータは、エネルギー、周期性パラメータ、ゼロ交差レート、反射係数、又はそれらの任意の組み合わせであってもよく、かつ、元の入力信号から、又は任意のステップで取得された信号から抽出されてもよい。
ステップ105:修正された自己相関係数に従って、LP係数を計算する。
ステップ106:LP係数に従って、入力信号を符号化し、符号化されたビットストリームを出力する。
LP係数に従って、入力信号を符号化することは、LP係数に従って入力信号に対するLP分析を実行し、残留信号を計算し、次に、長期予測(LTP)とエントロピー符号化とを実行し、最後に、残留信号のロスレス符号化されたビットストリームを出力することであってもよく、又は、LP係数と入力信号とを符号励振線形予測(CELP)モデルに入力して、ビットストリームを取得することであってもよい。
本発明の別の実施形態では、前処理ステップが含まれてもよい。ステップ101の前に、入力信号は前処理される。ロッシー圧縮のためには、前処理は、入力信号の高周波成分を増加させるための、又は、不必要な低周波干渉成分を除去するための、プリエンファシスフィルタ処理又はハイパスフィルタ処理であってもよい。その後、フィルタ処理された信号は、ステップ101に従ってウィンドウ処理される。ロスレス圧縮のためには、前処理は、入力信号をA則又はμ則からパルス符号変調(PCM)領域にマッピングする、マッピング動作であってもよい。PCM領域内の信号は、LP短期予測のためにより適している。
上記の実施形態における技術的解決法を使用すれば、元の自己相関係数は、各フレーム信号の特徴を反映し、そのような特徴に従って、自己相関係数補正率が調節され、その結果、調節された自己相関係数補正率が各フレーム信号の特徴に従って決定される。従って、LP係数は、信号の特徴により正確に適合し、不良条件の場合が回避され、計算される係数はよりロバストであり、計算複雑度は低い。
第2の実施形態
図2は、本発明の第2の実施形態における信号圧縮方法のフローチャートである。方法は以下のステップを含む。
ステップ201:入力信号にウィンドウ関数を掛ける。ここでのウィンドウは、従来技術においてロッシー符号化に適用されるウィンドウであってもよい。入力信号s(n)にウィンドウ関数win(n)が掛けられて、ウィンドウ処理された入力信号s’(n)が取得される。
s’(n)=win(n)s(n) n=0,...,N−1
ここで、Nはフレーム長
ステップ202:ウィンドウ処理された入力信号s’(n)に従って、元の自己相関係数r(k)を、例えば以下の式を介して計算する。
Figure 2013109381

k=0,...,p、ここで、pはLPの次数
ステップ203:元の自己相関係数に従って、エネルギーパラメータEを計算する。
いくつかの実施形態では、元の自己相関係数の第1の係数r(0)に従って、フレーム平均エネルギーが計算されてもよい。
Ener_avg=r(0)/N、ここで、Nはフレーム長
他の実施形態では、元の自己相関係数の第1の係数r(0)に従って、フレームエネルギーパラメータが計算されてもよい。
Figure 2013109381

上式で、
Figure 2013109381

は、端数を切り捨てることを意味し、すなわち、
Figure 2013109381

である。
ステップ204:エネルギーパラメータに従って、白色雑音補正率を調節する。
この実施形態では、エネルギー閾値Ethrが設定されてもよい。エネルギーパラメータEとEthrとの関係に従って、入力信号が区別される。異なる入力信号に対して、異なる調節関数が、白色雑音補正率を調節するために使用される。具体的には、エネルギーパラメータが分布する異なるエネルギー閾値間隔に従って、異なる調節関数が、白色雑音補正率を調節するために使用される。
Figure 2013109381
いくつかの実施形態では、フレーム信号は、フレーム平均エネルギーEner_avgとエネルギー閾値Ethrとに従って、高エネルギーフレーム信号と低エネルギーフレーム信号とに分類され、次に、それに応じて白色雑音補正率winlag(0)が調節される。
if(Ener_avg>=Ethr
winlag(0)=H+α*Ener_avg;
else
winlag(0)=L+β*Ener_avg;
エネルギー閾値Ethrは、多くの発話コーパスによる、無声発話と有声発話との間を区別することが可能な、定数として決定される。例えば、Ethr=1638であり、これは約32dBである。H、L、α、βは経験的な定数であり、代表的なトレーニングデータを使用することによる、トレーニングを介して取得されてもよく、トレーニングは最終的な符号器性能によって評価される。例えば、H=1.001、L=1.002、α=β=−6×10-7である。
他の実施形態では、フレーム信号は、フレームエネルギーパラメータEnerとエネルギー閾値Ethrとに従って、高エネルギーフレーム信号と低エネルギーフレーム信号とに分類され、次に、それに応じて白色雑音補正率winlag(0)が調節される。
if(Ener<Ethr
winlag(0)=L+β*(Ener+Ethr);
else
winlag(0)=H+α*(Ener+Ethr);
エネルギー閾値Ethrは、多くの発話コーパスによる、無声発話と有声発話との間を区別することが可能な、定数として決定される。フレーム長による影響を考慮して、異なるフレーム長に対して異なるエネルギー閾値が設定されてもよく、例えば、
Figure 2013109381

である。H、L、α、βは経験的な定数であり、代表的なトレーニングデータを使用することによるトレーニングを介して取得されてもよく、トレーニングは最終的な符号器性能によって評価される。例えば、H=1.0028、L=1.0018、α=β=−2-14
である。
ステップ205:拡張帯域幅f0に従って、ラグウィンドウwinlag(k)を計算する。
winlag(k)=exp[(−1/2)(2πf0k/fs2
k=1,...,p
上式で、f0は、34Hzなどの、拡張帯域幅であり、fsは、8000Hzなどの、信号標本化周波数であり、pは、LPの次数である。
ステップ206:元の自己相関係数r(k)と、調節された白色雑音補正率winlag
(0)と、ラグウィンドウwinlag(k)とに従って、自己相関係数補正率が調節された後の修正された自己相関係数r(0)’...r(k)’を計算する。
r(0)’=winlag(0)r(0)
r(k)’ =winlag(k)r(k) k=1,...,p
ステップ207:修正された自己相関係数r(0)’...r(k)’を使用して、LP係数を、レビンソン−ダービンアルゴリズムを介して計算する。
ステップ208:LP係数に従って、入力信号を符号化し、符号化されたビットストリームを出力する。LP係数に従って、入力信号に対して圧縮符号化を実行することは、LP分析を介して入力信号の残留信号を計算し、次に、LTPとエントロピー符号化とを実行し、最後に、残留信号のロスレス符号化されたビットストリームを出力することであってもよく、又は、LP係数と入力信号とをCELPモデルに入力して、符号化されたビットストリームを取得することであってもよい。
この実施形態における技術的解決法を使用すれば、入力信号の特徴を示すエネルギーパラメータが、元の自己相関係数を介して計算され、エネルギーパラメータに従って、白色雑音補正率が調節され、その結果、調節された自己相関係数補正率が各フレーム信号の特徴に従って決定される。従って、LP係数は、信号の特徴に、より正確に適合し、不良条件の場合が回避され、計算される係数はよりロバストであり、計算複雑度は低い。
第3の実施形態
図3は、本発明の第3の実施形態における信号圧縮方法のフローチャートである。該方法は以下のステップを含む。
ステップ301:入力信号にウィンドウ関数を掛ける。ここでのウィンドウは、従来技術においてロッシー符号化に適用されるウィンドウであってもよい。入力信号s(n)にウィンドウ関数win(n)が掛けられ、ウィンドウ処理された入力信号s’(n)が取得される。
s’(n)=win(n)s(n) n=0,...,N−1
ここで、Nはフレーム長
ステップ302:ウィンドウ処理された入力信号s’(n)に従って、元の自己相関係数r(k)を、例えば以下の式を介して計算する。
Figure 2013109381

k=0,...,p、ここで、pはLPの次数
ステップ303:白色雑音補正率を、winlag(0)=1.0001であると決定す
る。
ステップ304:元の自己相関係数に従って、ウィンドウ処理された入力信号の少なくとも1つの反射係数を計算する。この実施形態では、計算を簡素化するために、第1の反射係数のみが計算されるが、本発明は第1の反射係数のみを計算することに限定されない。反射係数は、レビンソン−ダービン再帰アルゴリズムを介して計算されてもよい。
Figure 2013109381
この再帰アルゴリズムを介して、ki=−ki’ i=1,...,pが計算され、ここで、k1=r(1)/r(0)である。
ステップ305:例えばk1などの、少なくとも1つの反射係数に従って、拡張帯域幅f0を適応的に計算し、調節する。
0=F+αk1、ここで、Fは60Hzなどの定数であってもよく、αは、代表的なトレーニングデータを使用することによるトレーニングを介して取得されてもよい、調整拡張因子(regulating expansion factor)であり、トレーニングは最終的な符号器性能によって評価される。例えば、α=10である。
ステップ306:拡張帯域幅f0に従って、ラグウィンドウを計算する。
winlag(k)=exp[(−1/2)(2πf0k/fs2
k=1,...,p
上式で、f0はステップ305で計算された拡張帯域幅であり、fsは8000Hzなどの信号標本化周波数であり、pはLPの次数である。
ステップ307:元の自己相関係数r(k)と、白色雑音補正率winlag(0)と、ラグウィンドウwinlag(k)とに従って、自己相関係数補正率が調節された後の修正された自己相関係数r(0)’...r(k)’を計算する。
r(0)’=winlag(0)r(0)
r(k)’ =winlag(k)r(k) k=1,...,p
ステップ308:修正された自己相関係数r(0)’...r(k)’を使用して、LP係数を、レビンソン−ダービンアルゴリズムを介して計算する。
ステップ309:LP係数に従って入力信号を符号化し、符号化されたビットストリームを出力する。LP係数に従って入力信号を符号化することは、LP係数と入力信号とをCELPモデルに入力して、符号化されたビットストリームを取得することであってもよく、又は、LP分析を介して入力信号の残留信号を計算し、次に、LTPとエントロピー符号化とを実行し、最後に、残留信号のロスレス符号化されたビットストリームを出力することであってもよい。
この実施形態における技術的解決法を使用すれば、入力信号の特徴を示す反射係数が、元の自己相関係数を介して計算され、反射係数に従って拡張帯域幅が決定されて、ラグウィンドウが調節され、その結果、調節された自己相関係数補正率が各フレーム信号の特徴に従って決定される。従って、LP係数は、信号の特徴により正確に適合し、不良条件の場合が回避され、計算される係数はよりロバストであり、計算複雑度は低い。
第4の実施形態
図4は、本発明の第4の実施形態における信号圧縮方法のフローチャートである。方法は以下のステップを含む。
ステップ401:入力信号にウィンドウ関数を掛ける。ここでのウィンドウは、従来技術においてロッシー符号化に適用されるウィンドウであってもよい。入力信号s(n)にウィンドウ関数win(n)が掛けられ、ウィンドウ処理された入力信号s’(n)が取得される。
s’(n)=win(n)s(n) n=0,...,N−1
ここで、Nはフレーム長
ステップ402:ウィンドウ処理された入力信号s’(n)に従って、元の自己相関係数r(k)を、例えば以下の式を介して計算する。
Figure 2013109381

k=0,...,p、ここで、pはLPの次数
ステップ403:元の自己相関係数に従って、エネルギーパラメータを計算する。
いくつかの実施形態では、元の自己相関係数の第1の係数r(0)に従って、フレーム平均エネルギーが計算されてもよい。
Ener_avg=r(0)/N、ここで、Nはフレーム長。
他の実施形態では、元の自己相関係数の第1の係数r(0)に従って、フレームエネルギーパラメータが計算されてもよい。
Figure 2013109381

上式で、
Figure 2013109381

は、端数を切り捨てることを意味し、すなわち、
Figure 2013109381

である。
ステップ404:エネルギーパラメータに従って、白色雑音補正率を調節する。
この実施形態では、エネルギー閾値Ethrが設定されてもよい。エネルギーパラメータEとEthrとの関係に従って入力信号が区別される。異なる入力信号に対して、異なる調節関数が、白色雑音補正率を調節するために使用される。具体的には、エネルギーパラメータが分布する異なるエネルギー閾値間隔に従って、異なる調節関数が、白色雑音補正率を調節するために使用される。
Figure 2013109381
いくつかの実施形態では、フレーム信号は、フレーム平均エネルギーEner_avgとエネルギー閾値Ethrとに従って、高エネルギーフレーム信号と低エネルギーフレーム信号とに分類され、次に、それに応じて白色雑音補正率winlag(0)が調節される。
if(Ener_avg>=Ethr
winlag(0)=H+α*Ener_avg;
else
winlag(0)=L+β*Ener_avg;
ここで、Ethr、H、L、α、βは、特定の条件に従って取得されてもよい、経験的な定数である。
他の実施形態では、フレーム信号は、フレームエネルギーパラメータEnerとエネルギー閾値Ethrとに従って、高エネルギーフレーム信号と低エネルギーフレーム信号とに分類され、次に、それに応じて白色雑音補正率winlag(0)が調節される。
if(Ener<Ethr
winlag(0)=L+β*(Ener+Ethr);
else
winlag(0)=H+α*(Ener+Ethr);
ここで、Ethr、H、L、α、βは、特定の条件に従って取得されてもよい、経験的な定数である。
ステップ405:元の自己相関係数に従って、ウィンドウ処理された入力信号の少なくとも1つの反射係数を計算する。この実施形態では、計算を簡素化するために第1の反射係数のみが計算されるが、本発明は第1の反射係数のみを計算することに限定されない。
1=r(1)/r(0)
ステップ406:例えばk1などの、少なくとも1つの反射係数に従って、拡張帯域幅f0を適応的に計算し調節する。
0=F+αk1
ここで、Fは、60Hzなどの定数であってもよく、αは、代表的なトレーニングデータを使用することによる、トレーニングを介して取得されてもよい、調整拡張因子であり、トレーニングは最終的な符号器性能によって評価される。例えば、α=10である。
ステップ407:拡張帯域幅f0に従って、ラグウィンドウを計算する。
winlag(k)=exp[(−1/2)(2πf0k/fs2
k=1,...,p
上式で、f0はステップ406で計算された拡張帯域幅であり、fsは8000Hzなどの信号標本化周波数であり、pはLPの次数である。
ステップ408:元の自己相関係数r(k)と、調節された白色雑音補正率winlag(0)と、ラグウィンドウwinlag(k)とに従って、自己相関係数補正率が調節された後の修正された自己相関係数を計算する。
r(0)’=winlag(0)r(0)
r(k)’ =winlag(k)r(k) k=1,...,p
ステップ409:修正された自己相関係数r(0)’...r(k)’を使用して、LP係数を、レビンソン−ダービンアルゴリズムを介して計算する。
ステップ410:LP係数に従って入力信号を符号化し、符号化されたビットストリームを出力する。LP係数に従って入力信号を符号化することは、LP分析を介して入力信号の残留信号を計算し、次に、LTPとエントロピー符号化とを実行し、最後に、残留信号のロスレス符号化されたビットストリームを出力することであってもよく、又は、LP係数と入力信号とをCELPモデルに入力して、符号化されたビットストリームを取得することであってもよい。
この実施形態における技術的解決法を使用すれば、入力信号の特徴を示すエネルギーパラメータと反射係数とが、元の自己相関係数を介して計算され、エネルギーパラメータに従って白色雑音補正率が調節され、反射係数に従って拡張帯域幅が決定されて、ラグウィンドウが調節され、その結果、調節された自己相関係数補正率が各フレーム信号の特徴に従って決定される。従って、LP係数は、信号の特徴により正確に適合し、不良条件の場合が回避され、計算される係数はよりロバストであり、計算複雑度は低い。
第5の実施形態
図5は、本発明の第5の実施形態における信号圧縮装置の構成を示す。装置は、
入力信号にウィンドウ関数を掛けるように構成された、ウィンドウ処理ユニット501と、
ウインドウ処理ユニット501によって処理された入力信号の、元の自己相関係数を計算するように構成された、元の自己相関係数計算ユニット502と、
元の自己相関係数計算ユニット502によって計算された元の自己相関係数に従って、自己相関係数補正率を調節し、元の自己相関係数と、調節された自己相関係数補正率とに従って、修正された自己相関係数を計算するように構成された、帯域幅拡張ユニット503と、
帯域幅拡張ユニット503によって計算された、修正された自己相関係数に従って、LP係数を計算するように構成された、線形予測係数計算ユニット504と、
線形予測係数計算ユニット504によって計算されたLP係数に従って、入力信号を符号化し、符号化されたビットストリームを出力するように構成された、圧縮ユニット505とを含む。
本発明の別の実施形態では、装置は、入力信号を後続のモジュールによって処理されるのにより適したものとするために、様々なタイプの圧縮用に入力信号を前処理し、前処理された入力信号をウィンドウ処理ユニット501に送信するように構成された、前処理ユニット500を更に含んでもよい。ロッシー圧縮のためには、前処理ユニットは、入力信号の高周波成分を増加させるように、又は、不必要な低周波干渉成分を除去するように構成された、プリエンファシスフィルタ又はハイパスフィルタであってもよい。その後、フィルタ処理された信号は、ウィンドウ処理ユニット501に入力される。ロスレス圧縮のためには、前処理ユニットは、入力信号をA則又はμ則からPCM領域にマッピングするマッピングモジュールであってもよい。PCM領域内の信号は、LP短期予測のためにより適している。
上記の実施形態における技術的解決法を使用すれば、元の自己相関係数は、各フレーム信号の特徴を反映し、そのような特徴に従って自己相関係数補正率が調節され、その結果、調節された自己相関係数補正率が各フレーム信号の特徴に従って決定される。従って、LP係数は、信号の特徴により正確に適合し、不良条件の場合が回避され、計算される係数はよりロバストであり、計算複雑度は低い。
第6の実施形態
図6は、本発明の第6の実施形態における信号圧縮装置の構成を示す。該装置は、ウィンドウ処理ユニット601と、元の自己相関係数計算ユニット602と、帯域幅拡張ユニット603と、LP係数計算ユニット604と、LP予測ユニット605と、LTP処理ユニット606と、エントロピー符号化ユニット607とを含む。
ウィンドウ処理ユニット601は、入力信号にウィンドウ関数を掛けるように構成される。ウィンドウ処理ユニット601は、従来技術においてロッシー符号化に適用されるウィンドウ処理ユニットであってもよい。入力信号s(n)にウィンドウ関数win(n)が掛けられて、ウィンドウ処理された入力信号s’(n)が取得される。
s’(n)=win(n)s(n) n=0,...,N−1
ここで、Nはフレーム長
元の自己相関係数計算ユニット602は、ウインドウ処理ユニット601によって処理された入力信号の、元の自己相関係数を、例えば以下の式を介して計算するように構成される。
Figure 2013109381

k=0,...,p、ここで、pはLPの次数
図7に示すように、帯域幅拡張ユニット603は、エネルギーモジュール701と、白色雑音補正率モジュール702と、ラグウィンドウモジュール703と、修正された自己相関係数計算モジュール704とを含んでもよい。
エネルギーモジュール701は、元の自己相関係数に従ってエネルギーパラメータを計算するように構成される。
いくつかの実施形態では、エネルギーモジュール701は、元の自己相関係数の第1の係数r(0)に従って、フレーム平均エネルギーを計算してもよい。 Ener_avg=r(0)/N、ここで、Nはフレーム長
他の実施形態では、エネルギーモジュール701は、元の自己相関係数の第1の係数r(0)に従って、フレームエネルギーパラメータEnerを計算してもよい。
Figure 2013109381

上式で、
Figure 2013109381

は、端数を切り捨てることを意味し、すなわち、
Figure 2013109381

である。
白色雑音補正率モジュール702は、エネルギーモジュール701によって計算されたエネルギーパラメータに従って、白色雑音補正率を調節するように構成される。
この実施形態では、エネルギー閾値Ethrが設定されてもよい。エネルギーパラメータEとEthrとの関係に従って入力信号が区別される。異なる入力信号に対して異なる調節関数が、白色雑音補正率を調節するために使用される。具体的には、エネルギーパラメータが分布する異なるエネルギー閾値間隔に従って、異なる調節関数が白色雑音補正率を調節するために使用される。
Figure 2013109381
いくつかの実施形態では、白色雑音補正率モジュール702は、フレーム平均エネルギーEner_avgとエネルギー閾値Ethrとに従って、フレーム信号を高エネルギーフレーム信号と低エネルギーフレーム信号とに分類し、次に、それに応じて白色雑音補正率winlag(0)を調節してもよい。
if(Ener_avg>=Ethr
winlag(0)=H+α*Ener_avg;
else
winlag(0)=L+β*Ener_avg;
ここで、Ethr、H、L、α、βは、特定の条件に従って取得されてもよい経験的な定数である。
他の実施形態では、白色雑音補正率モジュール702は、フレームエネルギーパラメータEnerとエネルギー閾値Ethrとに従って、フレーム信号を高エネルギーフレーム信号と低エネルギーフレーム信号とに分類し、次に、それに応じて白色雑音補正率winlag(0)を調節してもよい。
if(Ener<Ethr
winlag(0)=L+β*(Ener+Ethr);
else
winlag(0)=H+α*(Ener+Ethr);
ここで、H、L、α、βは、特定の条件に従って取得されてもよい経験的な定数である。
ラグウィンドウモジュール703は、拡張帯域幅f0に従って、ラグウィンドウwinlag(k)を計算するように構成される。
winlag(k)=exp[(−1/2)(2πf0k/fs2
k=1,...,p
上式で、f0は34Hzなどの拡張帯域幅であり、fsは8000Hzなどの信号標本化周波数であり、pはLPの次数である。
修正された自己相関係数計算モジュール704は、元の自己相関係数r(k)と、調節された白色雑音補正率winlag(0)と、ラグウィンドウwinlag(k)とに従って、自己相関係数補正率が調節された後の修正された自己相関係数を計算するように構成される。
r(0)’=winlag(0)r(0)
r(k)’ =winlag(k)r(k) k=1,...,p’
LP係数計算ユニット604は、帯域幅拡張ユニット603によって調節された、修正された自己相関係数r(0)’...r(k)’に従って、LP係数を、レビンソン−ダービンアルゴリズムを介して計算するように構成される。
LP予測ユニット605は、LP係数計算ユニット604によって計算されたLP係数に従って、入力信号に対してLP分析を実行して、残留信号を計算するように構成される。
LTP処理ユニット606は、LP予測ユニット605によって出力された残留信号に対して、LTPを実行するように構成される。
エントロピー符号化ユニット607は、LTP処理ユニット606によって、長期予測の後で出力された信号に対して、エントロピー符号化を実行し、残留信号のロスレス符号化されたビットストリームを出力するように構成される。
LP予測ユニット605、LTP処理ユニット606、及びエントロピー符号化ユニット607は、従来技術において適用される機能ユニットであってもよい。
この実施形態における技術的解決法を使用すれば、入力信号の特徴を示すエネルギーパラメータが元の自己相関係数を介して計算され、エネルギーパラメータに従って白色雑音補正率が調節され、その結果、調節された自己相関係数補正率が各フレーム信号の特徴に従って決定される。従って、LP係数は、信号の特徴により正確に適合し、不良条件の場合が回避され、計算される係数はよりロバストであり、計算複雑度は低い。
第7の実施形態
図8は、本発明の第7の実施形態における信号圧縮装置の構成を示す。該装置は、ウィンドウ処理ユニット801と、元の自己相関係数計算ユニット802と、帯域幅拡張ユニット803と、LP係数計算ユニット804と、CELP符号化ユニット805とを含む。
ウィンドウ処理ユニット801は、入力信号にウィンドウ関数を掛けるように構成される。ウィンドウ処理ユニット801は、従来技術においてロッシー符号化に適用されるウィンドウ処理ユニットであってもよい。入力信号s(n)にウィンドウ関数win(n)が掛けられて、ウィンドウ処理された入力信号s’(n)が取得される。
s’(n)=win(n)s(n) n=0,...,N−1
ここで、Nはフレーム長
元の自己相関係数計算ユニット802は、ウインドウ処理ユニット801によって処理された入力信号の元の自己相関係数を、例えば以下の式を介して計算するように構成される。
Figure 2013109381

k=0,...,p
ここで、pはLPの次数
図9に示すように、帯域幅拡張ユニット803は、白色雑音補正率モジュール901と、反射係数計算モジュール902と、拡張帯域幅計算モジュール903と、ラグウィンドウモジュール904と、修正された自己相関係数計算モジュール905とを含んでもよい。
白色雑音補正率モジュール901は、白色雑音補正率winlag(0)=1.0001を決定するように構成される。
反射係数計算モジュール902は、元の自己相関係数に従って、フレーム信号の少なくとも1つの反射係数を計算するように構成される。この実施形態では、計算を簡素化するために第1の反射係数のみが計算されるが、本発明は第1の反射係数のみを計算することに限定されない。
1=r(1)/r(0)
拡張帯域幅計算モジュール903は、反射係数計算モジュール902によって計算された反射係数k1に従って拡張帯域幅を適応的に計算し、調節するように構成される。
0=F+αk1
ここで、Fは60Hzであってもよく、αは実験的に決定される経験的因子である。
ラグウィンドウモジュール904は、拡張帯域幅計算モジュール903によって出力された拡張帯域幅f0に従って、ラグウィンドウを計算するように構成される。
winlag(k)=exp[(−1/2)(2πf0k/fs2
k=1,...,p
上式で、f0は拡張帯域幅計算モジュール903によって計算された拡張帯域幅であり、fsは8000Hzなどの信号標本化周波数であり、pはLPの次数である。
修正された自己相関係数計算モジュール905は、元の自己相関係数r(k)と、白色雑音補正率winlag(0)と、ラグウィンドウwinlag(k)とに従って、自己相関係数補正率が調節された後の修正された自己相関係数を計算するように構成される。
r(0)’=winlag(0)r(0)
r(k)’ =winlag(k)r(k) k=1,...,p
LP係数計算ユニット804は、帯域幅拡張ユニット803によって調節された、修正された自己相関係数r(0)’...r(k)’に従って、LP係数を、レビンソン−ダービンアルゴリズムを介して計算するように構成される。
CELP符号化ユニット805は、LP係数計算ユニット804によって計算されたLP係数と、入力信号とを、CELPモデルに入力して、符号化されたビットストリームを取得するように構成される。
図10に示すように、別の実施形態における帯域幅拡張ユニットは、エネルギーモジュール1001と、白色雑音補正率モジュール1002と、反射係数計算モジュール1003と、拡張帯域幅計算モジュール1004と、ラグウィンドウモジュール1005と、修正された自己相関係数計算モジュール1006とを含んでもよい。図10に示す帯域幅拡張ユニットは、第6の実施形態における帯域幅拡張ユニット603、及び第7の実施形態における帯域幅拡張ユニット803の代替であってもよく、帯域幅拡張ユニット603は、第7の実施形態において、帯域幅拡張ユニット803に取って代わるために適用されてもよく、帯域幅拡張ユニット803は、第6の実施形態において、帯域幅拡張ユニット603に取って代わるために適用されてもよい。
エネルギーモジュール1001は、元の自己相関係数に従って、エネルギーパラメータを計算するように構成される。
いくつかの実施形態では、エネルギーモジュール1001は、元の自己相関係数の第1の係数r(0)に従って、フレーム平均エネルギーを計算してもよい。
Ener_avg=r(0)/N ここで、Nはフレーム長
他の実施形態では、エネルギーモジュール1001は、元の自己相関係数の第1の係数r(0)に従って、フレームエネルギーパラメータEnerを計算してもよい。
Figure 2013109381

上式で、
Figure 2013109381

は、端数を切り捨てることを意味し、すなわち、
Figure 2013109381

である。
白色雑音補正率モジュール1002は、エネルギーモジュール1001によって計算されたエネルギーパラメータに従って、白色雑音補正率を調節するように構成される。
この実施形態では、エネルギー閾値Ethrが設定されてもよい。エネルギーパラメータEとEthrとの関係に従って入力信号が区別される。異なる入力信号に対して、異なる調節関数が白色雑音補正率を調節するために使用される。具体的には、エネルギーパラメータが分布する異なるエネルギー閾値間隔に従って、異なる調節関数が白色雑音補正率を調節するために使用される。
Figure 2013109381
いくつかの実施形態では、白色雑音補正率モジュール1002は、フレーム平均エネルギーEner_avgとエネルギー閾値Ethrとに従って、フレーム信号を高エネルギーフレーム信号と低エネルギーフレーム信号とに分類し、次に、それに応じて白色雑音補正率winlag(0)を調節してもよい。
if(Ener_avg>=Ethr
winlag(0)=H+α*Ener_avg;
else
winlag(0)=L+β*Ener_avg;
ここで、Ethr、H、L、α、βは、特定の条件に従って取得されてもよい経験的な定数である。
他の実施形態では、白色雑音補正率モジュール1002は、フレームエネルギーパラメータEnerとエネルギー閾値Ethrとに従って、フレーム信号を、高エネルギーフレーム信号と低エネルギーフレーム信号とに分類し、次に、それに応じて白色雑音補正率winlag(0)を調節してもよい。
if(Ener<Ethr
winlag(0)=L+β*(Ener+Ethr);
else
winlag(0)=H+α*(Ener+Ethr);
ここで、H、L、α、βは、特定の条件に従って取得されてもよい経験的な定数である。
反射係数計算モジュール1003は、元の自己相関係数に従って、フレーム信号の少なくとも1つの反射係数を計算するように構成される。この実施形態では、計算を簡素化するために、第1の反射係数のみが計算されるが、本発明は第1の反射係数のみを計算することに限定されない。
1=r(1)/r(0)
拡張帯域幅計算モジュール1004は、反射係数計算モジュール1003によって計算された反射係数k1に従って、拡張帯域幅を適応的に計算し調節するように構成される。
0=F+αk
ここで、Fは60Hzであってもよく、αは実験的に決定される経験的因子である。
ラグウィンドウモジュール1005は、拡張帯域幅計算モジュール1004によって出力された拡張帯域幅f0に従って、ラグウィンドウを計算するように構成される。
winlag(k)=exp[(−1/2)(2πf0k/fs2
k=1,...,p
上式で、f0は拡張帯域幅計算モジュール1004によって計算された拡張帯域幅であり、fsは8000Hzなどの信号標本化周波数であり、pはLPの次数である。
修正された自己相関係数計算モジュール1006は、元の自己相関係数r(k)と、白色雑音補正率winlag(0)と、ラグウィンドウwinlag(k)とに従って、自己相関係数補正率が調節された後の修正された自己相関係数を計算するように構成される。
r(0)’=winlag(0)r(0)
r(k)’ =winlag(k)r(k) k=1,...,p
上記の実施形態における技術的解決法を使用すれば、入力信号の特徴を示すエネルギーパラメータと反射係数とが元の自己相関係数を介して計算され、エネルギーパラメータに従って白色雑音補正率が調節され、反射係数に従って拡張帯域幅が決定されて、ラグウィンドウが調節され、その結果、調節された自己相関係数補正率が各フレーム信号の特徴に従って決定される。従って、LP係数は、信号の特徴により正確に適合し、不良条件の場合が回避され、計算される係数はよりロバストであり、計算複雑度は低い。
本発明の実施形態では、LP係数は、レビンソン−ダービンアルゴリズム、共分散法、及び格子法などの多くのアルゴリズムを介して、修正された自己相関係数に従って計算される。上述の実施形態では、レビンソン−ダービンアルゴリズムを例として使用したが、本発明はアルゴリズムを限定しない。
本発明の実施形態では、ウィンドウ処理された入力信号の複数の反射係数kiが、元の自己相関係数に従って計算されてもよく、次に、1つ以上の反射係数を介して拡張帯域幅が計算される。この場合、それに応じて拡張帯域幅の計算モードが変化してもよい。すなわち、複数の反射係数が、複数の調整拡張因子と共に使用されて、反射係数と拡張帯域幅との間の新たな式を生成する。本発明の実施形態では、反射係数と拡張帯域幅との間の例示的な式を提供したが、当業者は、創造的な作業なしに、本明細書に記載した実施形態から、反射係数と拡張帯域幅との間の様々な式を導き出すことが可能である。本発明は、反射係数と拡張帯域幅との間の式を限定しない。具体的には、各反射係数に対応する調整拡張因子が、代表的なトレーニングデータを使用することによる、トレーニングを介して取得されてもよく、トレーニングは最終的な符号器性能によって評価され、次に、反射係数と拡張帯域幅との間の様々な式が構築される。
上記の実施形態のステップの全て又は一部は、コンピュータプログラムによって命令されるハードウェアによって実施されてもよいということを、当業者は理解できる。プログラムは、コンピュータ読み取り可能な記憶媒体内に記憶されてもよい。実行される場合、プログラムは、上記の実施形態に包含される処理を実行する。記憶媒体は、磁気ディスク、コンパクトディスク、読み取り専用メモリ(ROM)、又はランダムアクセスメモリ(RAM)であってもよい。
本発明の実施形態の目的、技術的解決法、及び利点について、上記で詳細に説明した。本発明について、いくつかの例示的実施形態を介して説明してきたが、本発明はそのような実施形態に限定されない。当業者が、本発明の範囲から逸脱することなく、本発明に対して修正及び変形を行うことが可能であることは明白である。本発明は、それらの修正及び変形を、それらが特許請求の範囲又はその均等物によって規定される保護範囲に入るならば、包含することを意図するものである。

Claims (21)

  1. 入力信号にウィンドウ関数を掛け算し、
    ウィンドウ処理された入力信号の元の自己相関係数を計算し、
    前記元の自己相関係数に従って自己相関係数補正率を調節し、ここで、前記自己相関係数補正率は、白色雑音補正率とラグウィンドウとを含み、前記元の自己相関係数に従って自己相関係数補正率を調節することは、前記元の自己相関係数に従って前記白色雑音補正率と前記ラグウィンドウの少なくとも一つを調節することを含み、
    前記元の自己相関係数と、前記調節された自己相関係数補正率とに従って、修正された自己相関係数を計算し、
    前記修正された自己相関係数に従って線形予測係数を計算し、
    前記線形予測係数に従って、前記入力信号を符号化し、符号化されたビットストリームを出力すること
    を含むことを特徴とする、信号圧縮方法。
  2. 前記元の自己相関係数に従って自己相関係数補正率を調節することは、
    前記元の自己相関係数に従ってエネルギーパラメータを計算し、前記エネルギーパラメータに従って白色雑音補正率を調節し、
    前記元の自己相関係数に従って前記ウィンドウ処理された入力信号の少なくとも1つの反射係数を計算し、前記少なくとも1つの反射係数に従って拡張帯域幅を調節し、調節された拡張帯域幅に従ってラグウィンドウを計算すること
    を含む、請求項1に記載の信号圧縮方法。
  3. 前記元の自己相関係数に従って自己相関係数補正率を調節することは、
    前記元の自己相関係数に従ってエネルギーパラメータを計算し、前記エネルギーパラメータに従って白色雑音補正率を調節し、
    拡張帯域幅に従ってラグウィンドウを計算すること
    を含む、請求項1に記載の信号圧縮方法。
  4. 前記元の自己相関係数に従ってエネルギーパラメータを計算し、前記エネルギーパラメータに従って白色雑音補正率を調節することは、
    前記元の自己相関係数の第1の係数r(0)に従って前記エネルギーパラメータを計算し、
    前記エネルギーパラメータが分布する異なるエネルギー閾値間隔、すなわち、
    Figure 2013109381

    ここで、winlag(0)は、前記白色雑音補正率、Eは、前記エネルギーパラメータ、及びEthrは前記エネルギー閾値、
    に従って、異なる調節関数を使用して前記白色雑音補正率を調節すること
    を含む、請求項2又は3に記載の信号圧縮方法。
  5. 前記元の自己相関係数に従ってエネルギーパラメータを計算し、前記エネルギーパラメータに従って白色雑音補正率を調節することは、
    前記元の自己相関係数の第1の係数r(0)に従って、式
    Figure 2013109381

    を介して、フレームエネルギーパラメータEnerを計算し、
    前記フレームエネルギーパラメータEnerがエネルギー閾値Ethr以上である場合、式Winlag(0)=H+α*(Ener+Ethr)を介して、前記白色雑音補正率Winlag(0)を調節し、前記フレームエネルギーパラメータEnerが前記エネルギー閾値Ethr未満である場合、式Winlag(0)=L+β*(Ener+Ethr)を介して、前記白色雑音補正率Winlag(0)を調節すること
    を含み、ここで、H、L、α、βは経験的な定数である、請求項2又は3に記載の信号圧縮方法。
  6. 前記元の自己相関係数に従ってエネルギーパラメータを計算し、前記エネルギーパラメータに従って白色雑音補正率を調節することは、
    前記元の自己相関係数の第1の係数r(0)とフレーム長Nとに従って、式Ener_avg=r(0)/Nを介して、フレーム平均エネルギーEner_avgを計算し、
    前記フレーム平均エネルギーEner_avgがエネルギー閾値Ethr以上である場合、式Winlag(0)=H+α*Ener_avgを介して、前記白色雑音補正率Winlag(0)を調節し、前記フレーム平均エネルギーEner_avgが前記エネルギー閾値Ethr未満である場合、式Winlag(0)=L+β*Ener_avgを介して、前記白色雑音補正率Winlag(0)を調節すること
    を含み、ここで、H、L、α、βは経験的な定数である、請求項2又は3に記載の信号圧縮方法。
  7. 前記元の自己相関係数に従って自己相関係数補正率を調節することは、
    前記元の自己相関係数に従って前記ウィンドウ処理された入力信号の少なくとも1つの反射係数を計算し、前記少なくとも1つの反射係数に従って拡張帯域幅を調節し、調節された拡張帯域幅に従ってラグウィンドウを計算すること
    を含む、請求項1に記載の信号圧縮方法。
  8. 前記元の自己相関係数に従って前記ウィンドウ処理された入力信号の少なくとも1つの反射係数を計算し、前記少なくとも1つの反射係数に従って拡張帯域幅を調節することは、
    式k1=r(1)/r(0)を介して第1の反射係数k1を計算し、ここで、r(0)は前記元の自己相関係数の第1の係数であり、r(1)は前記元の自己相関係数の第2の係数であり、
    式f0=F+αk1に従って前記拡張帯域幅f0を計算すること
    を含み、ここで、F及びαは経験的な定数である、請求項2又は7に記載の信号圧縮方法。
  9. 前記線形予測係数に従って前記入力信号を符号化し、符号化されたビットストリームを出力することは、
    前記線形予測係数に従って前記入力信号に対する線形予測を実行し、残留信号を計算し、前記残留信号を符号化し、前記符号化されたビットストリームを出力すること
    を含む、請求項1〜3のいずれか一項に記載の信号圧縮方法。
  10. 入力信号にウィンドウ関数を掛けるように構成された、ウィンドウ処理ユニットと、
    前記ウインドウ処理ユニットによって処理された入力信号の元の自己相関係数を計算するように構成された、元の自己相関係数計算ユニットと、
    前記元の自己相関係数計算ユニットによって計算された前記元の自己相関係数に従って、自己相関係数補正率を調節し、前記元の自己相関係数と前記調節された自己相関係数補正率とに従って、修正された自己相関係数を計算するように構成された、帯域幅拡張ユニットであって、前記自己相関係数補正率は、白色雑音補正率とラグウィンドウとを含み、前記元の自己相関係数に従って自己相関係数補正率を調節することは、前記元の自己相関係数に従って前記白色雑音補正率と前記ラグウィンドウの少なくとも一つを調節することを含む、帯域幅拡張ユニットと、
    前記帯域幅拡張ユニットによって計算された前記修正された自己相関係数に従って、線形予測係数を計算するように構成された、線形予測係数計算ユニットと、
    前記線形予測係数計算ユニットによって計算された前記線形予測係数に従って前記入力信号を符号化し、符号化されたビットストリームを出力するように構成された、圧縮ユニットと
    を備えることを特徴とする、信号圧縮装置。
  11. 前記帯域幅拡張ユニットは、
    前記元の自己相関係数に従ってエネルギーパラメータを計算するように構成された、エネルギーモジュールと、
    前記エネルギーモジュールによって計算された前記エネルギーパラメータに従って白色雑音補正率を調節するように構成された、白色雑音補正率モジュールと、
    前記元の自己相関係数に従って前記ウィンドウ処理された入力信号の少なくとも1つの反射係数を計算するように構成された、反射係数計算モジュールと、
    前記反射係数計算モジュールによって計算された、前記少なくとも1つの反射係数に従って拡張帯域幅を調節するように構成された、拡張帯域幅計算モジュールと、
    前記拡張帯域幅計算モジュールによって出力された、調節された拡張帯域幅に従ってラグウィンドウを計算するように構成された、ラグウィンドウモジュールと、
    前記元の自己相関係数と、調節された白色雑音補正率と、前記ラグウィンドウとに従って、前記修正された自己相関係数を計算するように構成された、修正された自己相関係数計算モジュールと
    を備える、請求項10に記載の信号圧縮装置。
  12. 前記帯域幅拡張ユニットは、
    前記元の自己相関係数に従ってエネルギーパラメータを計算するように構成された、エネルギーモジュールと、
    前記エネルギーモジュールによって計算された前記エネルギーパラメータに従って白色雑音補正率を調節するように構成された、白色雑音補正率モジュールと、
    拡張帯域幅に従ってラグウィンドウを計算するように構成された、ラグウィンドウモジュールと、
    前記元の自己相関係数と、調節された白色雑音補正率と、前記ラグウィンドウとに従って前記修正された自己相関係数を計算するように構成された、修正された自己相関係数計算モジュールと
    を備える、請求項10に記載の信号圧縮装置。
  13. 前記帯域幅拡張ユニットは、
    白色雑音補正率を決定するように構成された白色雑音補正率モジュールと、
    前記元の自己相関係数に従って前記ウィンドウ処理された入力信号の少なくとも1つの反射係数を計算するように構成された、反射係数計算モジュールと、
    前記反射係数計算モジュールによって計算された前記少なくとも1つの反射係数に従って、拡張帯域幅を調節するように構成された、拡張帯域幅計算モジュールと、
    前記拡張帯域幅計算モジュールによって出力された調節された拡張帯域幅に従って、ラグウィンドウを計算するように構成された、ラグウィンドウモジュールと、
    前記元の自己相関係数と、前記白色雑音補正率と、前記ラグウィンドウとに従って、前記修正された自己相関係数を計算するように構成された、修正された自己相関係数計算モジュールと
    を備える、請求項10に記載の信号圧縮装置。
  14. 前記入力信号を後続のモジュールによって処理されるのにより適したものとするために、様々なタイプの圧縮用に前記入力信号を前処理し、前処理された入力信号を前記ウィンドウ処理ユニットに送信するように構成された、前処理ユニット
    を更に備える、請求項10〜13のいずれか一項に記載の信号圧縮装置。
  15. 方法を実行するための、プロセッサによる実行のために、コンピュータ使用可能な命令が記憶された、コンピュータ読み取り可能な媒体であって、前記方法は、
    入力信号にウィンドウ関数を掛け、
    ウィンドウ処理された入力信号の、元の自己相関係数を計算し、
    前記元の自己相関係数に従って、自己相関係数補正率を調節し、
    前記元の自己相関係数と、前記調節された自己相関係数補正率とに従って、修正された自己相関係数を計算し、
    前記修正された自己相関係数に従って、線形予測係数を計算し、
    前記線形予測係数に従って、前記入力信号を符号化し、符号化されたビットストリームを出力すること
    を含むことを特徴とする、コンピュータ読み取り可能な媒体。
  16. 入力信号にウィンドウ関数を掛け算し、
    ウィンドウ処理された入力信号の元の自己相関係数を計算し、
    前記元の自己相関係数の第1の係数に従ってエネルギーパラメータを計算し、当該エネルギーパラメータに従って白色雑音補正率を調節し、
    拡張帯域幅に従ってラグウィンドウを計算し、
    前記元の自己相関係数と、前記調節された白色雑音補正率と、前記ラグウィンドウと、に従って、修正された自己相関係数を計算し、
    前記修正された自己相関係数に従って線形予測係数を計算し、
    前記線形予測係数に従って前記入力信号に対する線形予測を実行し、残留信号を計算し、前記残留信号を符号化し、符号化されたビットストリームを出力すること
    を含むことを特徴とする、信号圧縮方法。
  17. 前記元の自己相関係数に従ってエネルギーパラメータを計算することは、
    前記元の自己相関係数の第1の係数r(0)に従って、式
    Figure 2013109381

    を介して、前記エネルギーパラメータEnerを計算すること
    を含む、請求項16に記載の信号圧縮方法。
  18. 前記元の自己相関係数に従ってエネルギーパラメータを計算することは、
    前記元の自己相関係数の第1の係数r(0)とフレーム長Nとに従って、式Ener_avg=r(0)/Nを介して、フレーム平均エネルギーEner_avgを計算すること
    を含む、請求項16に記載の信号圧縮方法。
  19. 前記エネルギーパラメータに従って白色雑音補正率を調節することは、
    前記エネルギーパラメータが分布する異なるエネルギー閾値間隔、すなわち、
    Figure 2013109381

    ここで、winlag(0)は、前記白色雑音補正率、Eは、前記エネルギーパラメータ、及びEthrは前記エネルギー閾値、
    に従って、異なる調節関数を使用して前記白色雑音補正率を調節すること
    を含む、請求項17又は18に記載の信号圧縮方法。
  20. 前記エネルギーパラメータに従って白色雑音補正率を調節することは、
    前記エネルギーパラメータEnerがエネルギー閾値Ethr以上である場合、式Winlag(0)=H+α*(Ener+Ethr)を介して、前記白色雑音補正率Winlag(0)を調節し、前記エネルギーパラメータEnerが前記エネルギー閾値Ethr未満である場合、式Winlag(0)=L+β*(Ener+Ethr)を介して、前記白色雑音補正率Winlag(0)を調節すること
    を含み、ここで、H、L、α、βは経験的な定数である、請求項17に記載の信号圧縮方法。
  21. 前記エネルギーパラメータに従って白色雑音補正率を調節することは、
    前記元の自己相関係数の第1の係数r(0)とフレーム長Nとに従って、式Ener_avg=r(0)/Nを介して、フレーム平均エネルギーEner_avgを計算し、
    前記フレーム平均エネルギーEner_avgがエネルギー閾値Ethr以上である場合、式Winlag(0)=H+α*Ener_avgを介して、前記白色雑音補正率Winlag(0)を調節し、前記フレーム平均エネルギーEner_avgが前記エネルギー閾値Ethr未満である場合、式Winlag(0)=L+β*Ener_avgを介して、前記白色雑音補正率Winlag(0)を調節すること
    を含み、ここで、H、L、α、βは経験的な定数である、請求項18に記載の信号圧縮方法。
JP2013051028A 2008-12-30 2013-03-13 信号圧縮方法及び装置 Pending JP2013109381A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN200810247024 2008-12-30
CN200810247024.1 2008-12-30
CN200910149823XA CN101609678B (zh) 2008-12-30 2009-06-25 信号压缩方法及其压缩装置
CN200910149823.X 2009-06-25

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2009290579A Division JP5275212B2 (ja) 2008-12-30 2009-12-22 信号圧縮方法及び装置

Publications (1)

Publication Number Publication Date
JP2013109381A true JP2013109381A (ja) 2013-06-06

Family

ID=41483403

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2009290579A Active JP5275212B2 (ja) 2008-12-30 2009-12-22 信号圧縮方法及び装置
JP2013051028A Pending JP2013109381A (ja) 2008-12-30 2013-03-13 信号圧縮方法及び装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2009290579A Active JP5275212B2 (ja) 2008-12-30 2009-12-22 信号圧縮方法及び装置

Country Status (6)

Country Link
US (2) US8396716B2 (ja)
EP (1) EP2204797B1 (ja)
JP (2) JP5275212B2 (ja)
KR (1) KR101095425B1 (ja)
CN (1) CN101609678B (ja)
AT (1) ATE537537T1 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4943655B2 (ja) * 2002-12-20 2012-05-30 スミス アンド ネフュー インコーポレーテッド 高性能な膝プロテーゼ
BRPI0917762B1 (pt) 2008-12-15 2020-09-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V Codificador de áudio e decodificador de extensão de largura de banda
CN101609678B (zh) 2008-12-30 2011-07-27 华为技术有限公司 信号压缩方法及其压缩装置
CN101945431B (zh) * 2010-08-30 2014-08-13 京信通信系统(中国)有限公司 有损数据压缩方法及基于有损数据压缩的数字通信系统
US9324331B2 (en) * 2011-01-14 2016-04-26 Panasonic Intellectual Property Corporation Of America Coding device, communication processing device, and coding method
CN104025191A (zh) * 2011-10-18 2014-09-03 爱立信(中国)通信有限公司 用于自适应多速率编解码器的改进方法和设备
SG11201506543WA (en) 2013-02-20 2015-09-29 Fraunhofer Ges Forschung Apparatus and method for generating an encoded signal or for decoding an encoded audio signal using a multi overlap portion
AU2014283393A1 (en) 2013-06-21 2016-02-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for improved concealment of the adaptive codebook in ACELP-like concealment employing improved pitch lag estimation
ES2749904T3 (es) * 2013-07-18 2020-03-24 Nippon Telegraph & Telephone Dispositivo, método, programa y medio de almacenamiento de análisis de predicción lineal
KR101850523B1 (ko) * 2014-01-24 2018-04-19 니폰 덴신 덴와 가부시끼가이샤 선형 예측 분석 장치, 방법, 프로그램 및 기록 매체
ES2863554T3 (es) * 2014-01-24 2021-10-11 Nippon Telegraph & Telephone Aparato de análisis predictivo lineal, método, programa y soporte de registro
KR101864122B1 (ko) 2014-02-20 2018-06-05 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
EP2980797A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
ES2975073T3 (es) 2014-03-31 2024-07-03 Fraunhofer Ges Forschung Codificador, descodificador, procedimiento de codificación, procedimiento de descodificación y programa
EP2980793A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder, system and methods for encoding and decoding
TWI602172B (zh) 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法
KR102318763B1 (ko) 2014-08-28 2021-10-28 삼성전자주식회사 기능 제어 방법 및 이를 지원하는 전자 장치
US10178034B1 (en) * 2014-12-09 2019-01-08 Cloud & Stream Gears Llc Iterative autocorrelation function calculation for streamed data using components
US9773318B2 (en) * 2015-10-02 2017-09-26 Varian Medical Systems, Inc. Systems and methods for detecting camera defect caused by exposure to radiation
CN110265043B (zh) * 2019-06-03 2021-06-01 同响科技股份有限公司 自适应有损或无损的音频压缩和解压缩演算方法
CN110380826B (zh) * 2019-08-21 2021-09-28 苏州大学 移动通信信号自适应混合压缩方法
KR102423977B1 (ko) 2019-12-27 2022-07-22 삼성전자 주식회사 인공신경망 기반의 음성 신호 송수신 방법 및 장치
US12488632B2 (en) * 2023-01-25 2025-12-02 International Engine Intellectual Property Company, Llc Data compression methods for vehicles

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63281200A (ja) * 1987-05-14 1988-11-17 沖電気工業株式会社 音声区間検出方式
JPH01123300A (ja) * 1987-11-06 1989-05-16 Mitsubishi Electric Corp 音声符号化装置
JP2000221998A (ja) * 1999-01-28 2000-08-11 Matsushita Electric Ind Co Ltd 音声符号化方法及び音声符号化装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6142698A (ja) * 1984-08-03 1986-03-01 日本電気株式会社 音声分析方式
JPS6211900A (ja) * 1985-07-10 1987-01-20 シャープ株式会社 音声分析合成に於ける音源ゲイン設定方式
DE4331358A1 (de) * 1992-10-12 1994-04-14 Braun Melsungen Ag Verfahren zur quantitativen selektiven Entfernung oder präparativen Gewinnung von Tumor-Nekrose-Faktor (TNF) oder/und Lipopolysacchariden (LPS) aus wäßrigen Flüssigkeiten
JPH06142698A (ja) 1992-11-04 1994-05-24 Chiyoda Corp 塩分を含んだヘドロの早期土壌化方法
IN184794B (ja) 1993-09-14 2000-09-30 British Telecomm
US5574825A (en) * 1994-03-14 1996-11-12 Lucent Technologies Inc. Linear prediction coefficient generation during frame erasure or packet loss
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
JP3552201B2 (ja) * 1999-06-30 2004-08-11 株式会社東芝 音声符号化方法および装置
JP3859462B2 (ja) * 2001-05-18 2006-12-20 株式会社東芝 予測パラメータ分析装置および予測パラメータ分析方法
US7742926B2 (en) * 2003-04-18 2010-06-22 Realnetworks, Inc. Digital audio signal compression method and apparatus
JP2005010337A (ja) * 2003-06-18 2005-01-13 Sony Corp 音声信号圧縮方法及び音声信号圧縮装置
US7930184B2 (en) * 2004-08-04 2011-04-19 Dts, Inc. Multi-channel audio coding/decoding of random access points and transients
KR20070051878A (ko) * 2004-09-06 2007-05-18 마츠시타 덴끼 산교 가부시키가이샤 스케일러블 부호화 장치 및 스케일러블 부호화 방법
US7991622B2 (en) * 2007-03-20 2011-08-02 Microsoft Corporation Audio compression and decompression using integer-reversible modulated lapped transforms
CN101609678B (zh) 2008-12-30 2011-07-27 华为技术有限公司 信号压缩方法及其压缩装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63281200A (ja) * 1987-05-14 1988-11-17 沖電気工業株式会社 音声区間検出方式
JPH01123300A (ja) * 1987-11-06 1989-05-16 Mitsubishi Electric Corp 音声符号化装置
JP2000221998A (ja) * 1999-01-28 2000-08-11 Matsushita Electric Ind Co Ltd 音声符号化方法及び音声符号化装置

Also Published As

Publication number Publication date
US20130117030A1 (en) 2013-05-09
KR101095425B1 (ko) 2011-12-16
US8560329B2 (en) 2013-10-15
US20100169086A1 (en) 2010-07-01
JP2010170124A (ja) 2010-08-05
CN101609678B (zh) 2011-07-27
EP2204797B1 (en) 2011-12-14
JP5275212B2 (ja) 2013-08-28
US8396716B2 (en) 2013-03-12
EP2204797A1 (en) 2010-07-07
KR20100080435A (ko) 2010-07-08
ATE537537T1 (de) 2011-12-15
CN101609678A (zh) 2009-12-23

Similar Documents

Publication Publication Date Title
JP5275212B2 (ja) 信号圧縮方法及び装置
JP4137634B2 (ja) 紛失フレームを取扱うための音声通信システムおよび方法
KR102237718B1 (ko) 시간 영역 디코더에서 양자화 잡음을 감소시키기 위한 디바이스 및 방법
RU2257556C2 (ru) Квантование коэффициентов усиления для речевого кодера линейного прогнозирования с кодовым возбуждением
CN102341850B (zh) 语音编码
EP1408484A2 (en) Enhancing perceptual quality of sbr (spectral band replication) and hfr (high frequency reconstruction) coding methods by adaptive noise-floor addition and noise substitution limiting
RU2763848C2 (ru) Улучшенное расширение диапазона частот в декодере звукового сигнала
RU2636685C2 (ru) Решение относительно наличия/отсутствия вокализации для обработки речи
KR101792712B1 (ko) 주파수 도메인 내의 선형 예측 코딩 기반 코딩을 위한 저주파수 강조
KR20100105733A (ko) 코딩 및 디코딩 방법 및 장치
KR101794149B1 (ko) Celp 같은 코더들을 위한 부가정보 없는 잡음 충전 장치 및 방법
CN105814631A (zh) 盲带宽扩展系统和方法
CN105229738A (zh) 用于使用能量限制操作产生频率增强信号的装置及方法
US10672411B2 (en) Method for adaptively encoding an audio signal in dependence on noise information for higher encoding accuracy
JP2010520503A (ja) 通信ネットワークにおける方法及び装置
KR20070007851A (ko) 계층 부호화 장치 및 계층 부호화 방법
CN1275223C (zh) 一种低比特变速率语言编码器
JPWO2007037359A1 (ja) 音声符号化装置および音声符号化方法
KR20100006491A (ko) 무성음 부호화 및 복호화 방법 및 장치
US20130191134A1 (en) Method and apparatus for decoding an audio signal using a shaping function

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130321

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130321

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A132

Effective date: 20140401

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20141209