JP2018533058A - ビットバジェットに応じて2サブフレームモデルと4サブフレームモデルとの間で選択を行うステレオ音声信号の左チャンネルおよび右チャンネルを符号化するための方法およびシステム - Google Patents
ビットバジェットに応じて2サブフレームモデルと4サブフレームモデルとの間で選択を行うステレオ音声信号の左チャンネルおよび右チャンネルを符号化するための方法およびシステム Download PDFInfo
- Publication number
- JP2018533058A JP2018533058A JP2018515518A JP2018515518A JP2018533058A JP 2018533058 A JP2018533058 A JP 2018533058A JP 2018515518 A JP2018515518 A JP 2018515518A JP 2018515518 A JP2018515518 A JP 2018515518A JP 2018533058 A JP2018533058 A JP 2018533058A
- Authority
- JP
- Japan
- Prior art keywords
- channel
- encoding
- primary
- secondary channel
- bit budget
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/007—Two-channel systems in which the audio signals are in digital form
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereo-Broadcasting Methods (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
Description
上述の説明において示されたように、低ビットレートで動作する知られているステレオモデルは、モノラルモデルに近くないスピーチをコーディングするのに困難を抱えている。これまでの手法は、すべての内容が参照により本明細書に組み込まれる参考文献[4]および[5]に記載されているように、2つのベクトルを得るために、たとえば、カルフネン-ロエヴェ変換(klt)を使用する主成分分析(pca)に関連する周波数帯域毎の相関をたとえば使用して周波数帯域毎に周波数領域においてダウンミックスを実行する。これら2つのベクトルのうちの一方が、すべての非常に相関がある内容を組み込む一方、他方のベクトルは、あまり相関がないすべての内容を定義する。低ビットレートでスピーチを符号化するための最もよく知られている方法は、知られている周波数領域の解決策が直接適用され得ない、CELP(Code-Excited Linear Prediction:符号励振線形予測)などの時間領域のコーデックを使用する。そうした理由で、周波数帯域毎のpca/kltの背後にある考え方は興味深いが、内容がスピーチであるとき、プライマリチャンネルYは、時間領域に変換して戻される必要があり、そのような変換の後、その内容は、特にCELPなどのスピーチに固有のモデルを使用する上述の構成の場合、もはやこれまでのスピーチのように見えない。これは、スピーチのコーデックの性能を落とす影響がある。さらに、低ビットレートにおいては、スピーチのコーデックの入力は、コーデックの内部モデルの予測に可能な限り近いべきである。
Y(i) = R(i)・(1 - β(t)) + L(i)・β(t) (9)
X(i) = L(i)・(1 - β(t)) - R(i)・β(t) (10)
ppc = |p1 - p0| + |p2 - p1|およびpsc = |p1 - p0| + |p2 - p1| (12d)
図8は、スピーチまたはオーディオなどのステレオ音声信号のプライマリYチャンネルとセカンダリXチャンネルとの両方の符号化の最適化の可能な実装によるステレオ音声符号化方法およびシステムを同時に示すブロック図である。
ビットレートの消費の重要な部分は、LPフィルタ係数(LPC)の量子化にある。低ビットレートにおいて、LPフィルタ係数の完全な量子化は、ビットバジェットうち最大でほぼ25%を占める可能性がある。セカンダリチャンネルXが周波数の内容においてプライマリチャンネルYと近いことが多いが、ただしエネルギーレベルが最も低いことを考慮すると、プライマリチャンネルYのLPフィルタ係数を再利用することが可能かどうかは、検証する価値がある。そのようにするために、図8に示されるように、プライマリチャンネルYのLPフィルタ係数(LPC)807を再利用するか否かの可能性を確認するためにわずかなパラメータが計算され、比較される、LPフィルタコヒーレンスアナライザ856によって実施されるLPフィルタコヒーレンス分析動作806が開発された。
プライマリYチャンネルおよびセカンダリXチャンネルが右R入力チャンネルと左L入力チャンネルとの両方のミックスである可能性があるので、これは、たとえセカンダリチャンネルXのエネルギーの内容がプライマリチャンネルYのエネルギーの内容と比べて低いとしても、チャンネルのアップミックスが実行されると、コーディングアーティファクトが知覚される可能性があることを示唆する。そのような起こり得るアーティファクトを制限するために、セカンダリチャンネルXのコーディングシグネチャ(coding signature)は、すべての意図されていないエネルギーの変動を制限するために可能な限り一定に保たれる。図7に示されるように、セカンダリチャンネルXの内容は、プライマリチャンネルYの内容と同様の特徴を有し、そのために、非常に低いビットレートのスピーチに似たコーディングモデルが、作られた。
Gbd(i) = Gbd(16 - i - 1), for i = 8,…,15 (18)
fd(k) = fd(k - Pb), for k = 128,…,255 (19)
セカンダリチャンネルXの符号化は、最良の可能な品質を実現し、一定のシグネチャを保ちながら最小限の数のビットを使用するという同じ目的を持って異なるようにして実現され得る。セカンダリチャンネルXの符号化は、LPフィルタ係数およびピッチ情報の潜在的な再利用とは独立して、利用可能なビットバジェットによって部分的に駆動される可能性がある。また、2サブフレームモデル符号化(動作805)は、ハーフバンドであるかまたはフルバンド(full band)であるかのどちらかである可能性がある。セカンダリチャンネルの低ビットレートの符号化のこの代替的な実装においては、プライマリチャンネルのLPフィルタ係数および/またはピッチ情報が、再利用される可能性があり、2サブフレームモデル符号化が、セカンダリチャンネルXを符号化するために利用可能なビットバジェットに基づいて選択される可能性がある。さらに、下に提示される2サブフレームモデル符号化は、その入力/出力パラメータをダウンサンプリング/アップサンプリングする代わりにサブフレーム長を倍にすることによって生成された。
Bx = BM + (0.25・ε- 0.125)・(Bt - 2・BM) (21a)
のように上述のエネルギー正規化(再スケーリング)因子εに関連する量だけ増やされ、ここで、Bxは、セカンダリチャンネルXに割り当てられるビットレートを表し、Btは、利用可能な総ステレオビットレートを表し、BMは、セカンダリチャンネルに割り当てられる最小ビットレートを表し、通常、総ステレオビットレートの約20%である。最後に、εは、上述のエネルギー正規化因子を表す。したがって、プライマリチャンネルに割り当てられるビットレートは、総ステレオビットレートとセカンダリチャンネルのステレオビットレートとの間の差に対応する。代替的な実装において、セカンダリチャンネルのビットレートの割り当ては、以下のように記述され得る。
上述の説明において説明されたように、時間領域ダウンミックスは、モノラルと相性が良く、つまり、プライマリチャンネルYがレガシーのコーデックによって符号化され(上述の説明において述べられたように、任意の好適な種類のエンコーダがプライマリチャンネルのエンコーダ252/352として使用され得ることに留意されたい)、ステレオのビットがプライマリチャンネルビットストリームに付加される組み込み型の構造の場合、ステレオのビットが引き剥がされる可能性があり、レガシーのデコーダが仮説的なモノラル合成に主観的に近い合成を生み出す可能性がある。そのようにするためには、プライマリチャンネルYを符号化する前に、エンコーダ側で単純なエネルギーの正規化が必要とされる。プライマリチャンネルYのエネルギーを音声のモノラル信号バージョンのエネルギーに十分に近い値に再スケーリングすることによって、レガシーのデコーダによるプライマリチャンネルYの復号は、音声のモノラル信号バージョンのレガシーのデコーダによる復号と同様になり得る。エネルギーの正規化の関数は、関係(7)を使用して計算された線形化された長期相関差
図10は、ステレオ音声復号方法およびステレオ音声復号システムを同時に示すブロック図である。図11は、図10のステレオ音声復号方法およびステレオ音声復号システムのさらなる特徴を示すブロック図である。
周波数領域のコーディングモードが使用される現在の技術の応用のために、いくらか複雑性を取り除くかまたはデータフローを簡素化するために周波数領域において時間のダウンミックスを実行することも考えられる。そのような場合、時間領域ダウンミックスの利点を保つために、すべてのスペクトル係数に同じミックス因子(mixing factor)が適用される。これは、周波数領域ダウンミックスの応用のほとんどの場合と同様に周波数帯域毎にスペクトル係数を適用することからの逸脱であることが、観察され得る。ダウンミキサ456は、関係(25.1)および(25.2)を計算するように適合され得る。
FY(k) = FR(k)・(1 - β(t)) + FL(k)・β(t) (25.1)
FX(k) = FL(k)・(1 - β(t)) - FR(k)・β(t) (25.2)
図12は、上述のステレオ音声符号化システムおよびステレオ音声復号システムの各々を形成するハードウェア構成要素の例示的な構成の簡略化されたブロック図である。
以下の参考文献は、本明細書において参照され、それらの参考文献のすべての内容は、参照により本明細書に組み込まれる。
[1] 3GPP TS 26.445, v.12.0.0,「Codec for Enhanced Voice Services (EVS); Detailed Algorithmic Description」,2014年9月
[2] M. Neuendorf, M. Multrus, N. Rettelbach, G. Fuchs, J. Robillard, J. Lecompte, S. Wilde, S. Bayer, S. Disch, C. Helmrich, R. Lefevbre, P. Gournayら,「The ISO/MPEG Unified Speech and Audio Coding Standard - Consistent High Quality for All Content Types and at All Bit Rates」,J. Audio Eng. Soc.,第61巻,第12号,956〜977頁,2013年12月
[3] B. Bessette, R. Salami, R. Lefebvre, M. Jelinek, J. Rotola-Pukkila, J. Vainio, H. Mikkola, およびK. Jarvinen,「The Adaptive Multi-Rate Wideband Speech Codec (AMR-WB)」,Special Issue of IEEE Trans. Speech and Audio Proc.,第10巻,620〜636頁,2002年11月
[4] R.G. van der WaalおよびR.N.J. Veldhuis,「Subband coding of stereophonic digital audio signals」,Proc. IEEE ICASSP,第5巻,3601〜3604頁,1991年4月
[5] Dai Yang, Hongmei Ai, Chris Kyriakakis, およびC.-C. Jay Kuo,「High-Fidelity Multichannel Audio Coding With Karhunen-Loeve Transform」,IEEE Trans. Speech and Audio Proc.,第11巻,第4号,365〜379頁,2003年7月
[6] J. Breebaart, S. van de Par, A. Kohlrausch, およびE. Schuijers,「Parametric Coding of Stereo Audio」,EURASIP Journal on Applied Signal Processing,第9号,1305〜1322頁,2005年
[7] 3GPP TS 26.290 V9.0.0,「Extended Adaptive Multi-Rate - Wideband (AMR-WB+) codec; Transcoding functions (Release 9)」,2009年9月
[8] Jonathan A. Gibbs,「Apparatus and method for encoding a multi-channel audio signal」,米国特許第8577045(B2)号
101 通信リンク
102 マイクロフォン
103 左
104 アナログ-デジタル(A/D)コンバータ
105 左
106 ステレオ音声エンコーダ
107 ビットストリーム
108 誤り訂正エンコーダ
109 エラー訂正デコーダ
110 ステレオ音声デコーダ
111 ビットストリーム
112 ビットストリーム
113 左
114 左
115 デジタル-アナログ(D/A)コンバータ
116 ラウドスピーカユニット
122 マイクロフォン
123 右
125 右
133 右
134 右
136 ラウドスピーカユニット
201 時間領域ダウンミックス動作
202 プライマリチャンネル符号化動作
203 セカンダリチャンネル符号化動作
204 多重化動作
205 ビットストリーム
206 ビットストリーム
207 多重化されたビットストリーム
208 ビット
251 チャンネルミキサ
252 プライマリチャンネルのエンコーダ
253 セカンダリチャンネルのエンコーダ
254 マルチプレクサ
301 時間領域ダウンミックス動作
302 プライマリチャンネル符号化動作
303 セカンダリチャンネル符号化動作
304 多重化動作
305 ビットストリーム
306 ビットストリーム
307 多重化されたビットストリーム
351 チャンネルミキサ
352 プライマリチャンネルのエンコーダ
353 セカンダリチャンネルのエンコーダ
354 マルチプレクサ
401 エネルギー分析下位動作
402 エネルギー動向分析下位動作
403 LおよびRチャンネル正規化相関分析下位動作
404 長期(LT)相関差計算下位動作
405 長期相関差-因子β変換および量子化下位動作
406 時間領域ダウンミックス下位動作
451 エネルギーアナライザ
452 エネルギー動向アナライザ
453 LおよびR正規化相関アナライザ
454 計算器
455 コンバータおよび量子化器
456 時間領域ダウンミキサ
801 低複雑性前処理動作
802 信号分類動作
803 判断動作
804 4サブフレームモデルの一般のみの符号化動作
805 2サブフレームモデル符号化動作
806 LPフィルタコヒーレンス分析動作
807 LPフィルタ係数(LPC)および/またはピッチのラグ
851 低複雑性プリプロセッサ
852 信号分類器
853 判断モジュール
854 4サブフレームモデルの一般のみの符号化モジュール
855 2サブフレームモデル符号化モジュール
856 LPフィルタコヒーレンスアナライザ
901 重み付け下位動作
902 ユークリッド距離分析下位動作
903 プライマリチャンネルLPフィルタ分析下位動作
904 重み付け下位動作
906 セカンダリチャンネル残差フィルタリング動作
907 残差エネルギー計算下位動作
908 減算下位動作
910 音声エネルギー計算下位動作
911 利得比計算下位動作
912 セカンダリチャンネルLPフィルタ分析下位動作
913 残差フィルタリング下位動作
914 残差エネルギー計算下位動作
915 減算下位動作
916 比較下位動作
917 比較下位動作
918 セカンダリチャンネルLPフィルタ使用判断下位動作
919 プライマリチャンネルLPフィルタ再利用判断下位動作
951 重み付けフィルタ
952 ユークリッド距離アナライザ
953 LPフィルタアナライザ
954 重み付けフィルタ
956 セカンダリチャンネル残差フィルタ
957 残差のエネルギーの計算器
958 減算器
960 エネルギーの計算器
962 LPフィルタアナライザ
963 残差フィルタ
964 残差のエネルギーの計算器
965 減算器
966 比較器
967 比較器
968 判断モジュール
969 判断モジュール
1001 ビットストリーム
1002 ビットストリーム
1003 ビットストリーム
1004 プライマリチャンネル復号動作
1005 セカンダリチャンネル復号動作
1006 時間領域アップミックス動作
1007 多重分離動作
1054 プライマリチャンネルのデコーダ
1055 セカンダリチャンネルのデコーダ
1056 時間領域チャンネルアップミキサ
1057 デマルチプレクサ
1101 判断動作
1102 4サブフレーム一般復号動作
1103 2サブフレーム一般/無声/非アクティブ復号動作
1151 判断モジュール
1152 4サブフレーム一般デコーダ
1153 2サブフレーム一般/無声/非アクティブデコーダ
1200 ステレオ音声符号化システムおよびステレオ音声復号システム
1202 入力
1204 出力
1206 プロセッサ
1208 メモリ
1301 エネルギー分析下位動作
1302 エネルギー動向分析下位動作
1303 LおよびRチャンネル正規化相関分析下位動作
1304 事前適応因子計算下位動作
1305 正規化された相関に事前適応因子を適用する動作
1306 長期(LT)相関差計算下位動作
1307 利得-因子β変換および量子化下位動作
1308 時間領域ダウンミックス下位動作
1351 エネルギーアナライザ
1352 エネルギー動向アナライザ
1353 LおよびR正規化相関アナライザ
1354 事前適応因子計算器
1355 計算器
1356 長期(LT)相関差の計算器
1357 コンバータおよび量子化器
1358 時間領域ダウンミキサ
1401 位相ずれ信号検出動作
1402 切り替わり位置検出動作
1403 チャンネルミキサ選択動作
1404 位相ずれに特有の時間領域ダウンミックス動作
1450 位相ずれ信号検出器
1451 位相ずれ信号検出器
1452 切り替わり位置検出器
1453 チャンネルミキサセレクタ
1454 位相ずれに特有の時間領域ダウンチャンネルミキサ
1501 前処理動作
1502 ピッチコヒーレンス分析動作
1504 無声/非アクティブ判断動作
1505 無声/非アクティブコーディング判断動作
1506 2/4サブフレームモデル判断動作
1551 プリプロセッサ
Claims (17)
- ステレオ音声信号の左チャンネルおよび右チャンネルを符号化するためのステレオ音声符号化方法であって、
プライマリチャンネルおよびセカンダリチャンネルを生成するために前記ステレオ音声信号の前記左チャンネルおよび前記右チャンネルをダウンミックスするステップと、
前記プライマリチャンネルを符号化し、前記セカンダリチャンネルを符号化するステップであって、前記プライマリチャンネルを符号化するための第1のビットバジェットおよび前記セカンダリチャンネルを符号化するための第2のビットバジェットを決定することを含む、ステップと
を含み、
前記第2のビットバジェットが十分である場合、前記セカンダリチャンネルが、4サブフレームモデルを使用して符号化され、
前記第2のビットバジェットが前記4サブフレームモデルを使用するのに不十分である場合、前記セカンダリチャンネルが、2サブフレームモデルを使用して符号化される、方法。 - 前記ステレオ音声信号の前記左チャンネルおよび前記右チャンネルをダウンミックスする前記ステップが、前記プライマリチャンネルおよび前記セカンダリチャンネルを生成するために前記ステレオ音声信号の前記左チャンネルおよび前記右チャンネルを時間領域ダウンミックスするステップを含む、請求項1に記載の方法。
- 前記プライマリチャンネルを符号化する前記ステップが、プライマリチャンネルのコーディングパラメータを生成するステップを含み、前記セカンダリチャンネルを符号化する前記ステップが、セカンダリチャンネルのコーディングパラメータを生成するステップを含み、前記方法が、
前記プライマリチャンネルの符号化から再利用されない(a)LPフィルタ係数および/または(b)ピッチ情報、ならびに利得を含むセカンダリチャンネルのコーディングパラメータを現在のフレームにおいて符号化するために必要とされるビットバジェットを決定するステップと、
残りのビットバジェットが前記現在のフレームにおいて4つの代数的コードブックを量子化することを可能にするのかまたは2つだけの代数的コードブックを量子化することを可能にするのかを判定するステップと
を含む、請求項1または2に記載の方法。 - 前記2サブフレームモデルが使用されるときにサブフレーム長を倍にするステップと、
前記2サブフレームモデルを考慮に入れることによって前記プライマリチャンネルのLPフィルタ係数を適応させるために、再利用されるときに前記プライマリチャンネルの前記LPフィルタ係数を補間するステップと
を含む、請求項3に記載の方法。 - 時間領域ダウンミックスと周波数領域ダウンミックスとの間で選択を行うステップを含む、請求項1から4のいずれか一項に記載の方法。
- 前記左チャンネルおよび前記右チャンネルを時間領域から周波数領域に変換するステップと、
周波数領域のプライマリチャンネルおよび周波数領域のセカンダリチャンネルを生成するために周波数領域の左チャンネルおよび周波数領域の右チャンネルを周波数領域ダウンミックスするステップと
を含む、請求項1から5のいずれか一項に記載の方法。 - 前記周波数領域のプライマリチャンネルおよび前記周波数領域のセカンダリチャンネルを時間領域エンコーダによる符号化のために時間領域に変換して戻すステップを含む、請求項6に記載の方法。
- ステレオ音声信号の左チャンネルおよび右チャンネルを符号化するためのステレオ音声符号化システムであって、
プライマリチャンネルおよびセカンダリチャンネルを生成するための前記ステレオ音声信号の前記左チャンネルおよび前記右チャンネルのダウンミキサと、
前記プライマリチャンネルのエンコーダおよび前記セカンダリチャンネルのエンコーダと、
前記プライマリチャンネルを符号化するための第1のビットバジェットおよび前記セカンダリチャンネルを符号化するための第2のビットバジェットのビット割り当て推定器と、
前記第2のビットバジェットが十分である場合、4サブフレームモデルを使用する前記セカンダリチャンネルの符号化を選択し、前記第2のビットバジェットが前記4サブフレームモデルを使用するのに不十分である場合、2サブフレームモデルを使用する前記セカンダリチャンネルの符号化を選択するための判断モジュールと
を含む、システム。 - 前記ダウンミキサが、前記プライマリチャンネルおよび前記セカンダリチャンネルを生成するための前記ステレオ音声信号の前記左チャンネルおよび前記右チャンネルの時間領域ダウンミキサである、請求項8に記載のシステム。
- 前記プライマリチャンネルのエンコーダが、プライマリチャンネルのコーディングパラメータを生成し、
前記セカンダリチャンネルのエンコーダが、
セカンダリチャンネルのコーディングパラメータを生成し、
前記プライマリチャンネルの符号化から再利用されない(a)LPフィルタ係数および/または(b)ピッチ情報、ならびに利得を含むセカンダリチャンネルのコーディングパラメータを現在のフレームにおいて符号化するために必要とされるビットバジェットを決定し、
残りのビットバジェットが前記現在のフレームにおいて4つの代数的コードブックを量子化することを可能にするのかまたは2つだけの代数的コードブックを量子化することを可能にするのかを判定する、請求項8または9に記載のシステム。 - 前記セカンダリチャンネルのエンコーダが、
前記2サブフレームモデルが使用されるときにサブフレーム長を倍にし、
前記2サブフレームモデルを考慮に入れることによって前記プライマリチャンネルのLPフィルタ係数を適応させるために、再利用されるときに前記プライマリチャンネルの前記LPフィルタ係数を補間する、請求項10に記載のシステム。 - 前記ダウンミキサが、時間領域ダウンミックスと周波数領域ダウンミックスとの間で選択を行う、請求項8から11のいずれか一項に記載のシステム。
- 時間領域から周波数領域への前記左チャンネルおよび前記右チャンネルのコンバータを含み、
前記ダウンミキサが、周波数領域のプライマリチャンネルおよび周波数領域のセカンダリチャンネルを生成するために周波数領域の左チャンネルおよび周波数領域の右チャンネルをミックスする、請求項8から12のいずれか一項に記載のシステム。 - 時間領域エンコーダによる符号化のために時間領域に戻す、前記周波数領域のプライマリチャンネルおよび前記周波数領域のセカンダリチャンネルのコンバータを含む、請求項13に記載のシステム。
- ステレオ音声信号の左チャンネルおよび右チャンネルを符号化するためのステレオ音声符号化システムであって、
少なくとも1つのプロセッサと、
前記プロセッサに接続された、非一時的命令を含むメモリと
を含み、前記命令は、実行されるときに前記プロセッサに、
プライマリチャンネルおよびセカンダリチャンネルを生成するための前記ステレオ音声信号の前記左チャンネルおよび前記右チャンネルのダウンミキサと、
前記プライマリチャンネルのエンコーダおよび前記セカンダリチャンネルのエンコーダと、
前記プライマリチャンネルを符号化するための第1のビットバジェットおよび前記セカンダリチャンネルを符号化するための第2のビットバジェットのビット割り当て推定器と、
前記第2のビットバジェットが十分である場合、4サブフレームモデルを使用する前記セカンダリチャンネルの符号化を選択し、前記第2のビットバジェットが前記4サブフレームモデルを使用するのに不十分である場合、2サブフレームモデルを使用する前記セカンダリチャンネルの符号化を選択するための判断モジュールと
を実施させる、システム。 - ステレオ音声信号の左チャンネルおよび右チャンネルを符号化するためのステレオ音声符号化システムであって、
少なくとも1つのプロセッサと、
前記プロセッサに接続された、非一時的命令を含むメモリと
を含み、前記命令は、実行されるときに前記プロセッサに、
プライマリチャンネルおよびセカンダリチャンネルを生成するために前記ステレオ音声信号の前記左チャンネルおよび前記右チャンネルをダウンミックスすることと、
前記プライマリチャンネルを符号化し、前記セカンダリチャンネルを符号化することと、
前記プライマリチャンネルを符号化するための第1のビットバジェットおよび前記セカンダリチャンネルを符号化するための第2のビットバジェットを推定することと、
前記第2のビットバジェットが十分である場合、4サブフレームモデルを使用する前記セカンダリチャンネルの符号化を選択し、前記第2のビットバジェットが前記4サブフレームモデルを使用するのに不十分である場合、2サブフレームモデルを使用する前記セカンダリチャンネルの符号化を選択することと
を行わせる、システム。 - 実行されるときにプロセッサに請求項1から7のいずれか一項に記載の方法の動作を実施させる非一時的命令を含むプロセッサ可読メモリ。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021182560A JP7244609B2 (ja) | 2015-09-25 | 2021-11-09 | ビットバジェットに応じて2サブフレームモデルと4サブフレームモデルとの間で選択を行うステレオ音声信号の左チャンネルおよび右チャンネルを符号化するための方法およびシステム |
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US201562232589P | 2015-09-25 | 2015-09-25 | |
| US62/232,589 | 2015-09-25 | ||
| US201662362360P | 2016-07-14 | 2016-07-14 | |
| US62/362,360 | 2016-07-14 | ||
| PCT/CA2016/051109 WO2017049400A1 (en) | 2015-09-25 | 2016-09-22 | Method and system for encoding left and right channels of a stereo sound signal selecting between two and four sub-frames models depending on the bit budget |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021182560A Division JP7244609B2 (ja) | 2015-09-25 | 2021-11-09 | ビットバジェットに応じて2サブフレームモデルと4サブフレームモデルとの間で選択を行うステレオ音声信号の左チャンネルおよび右チャンネルを符号化するための方法およびシステム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2018533058A true JP2018533058A (ja) | 2018-11-08 |
| JP6976934B2 JP6976934B2 (ja) | 2021-12-08 |
Family
ID=58385516
Family Applications (6)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2018515504A Active JP6804528B2 (ja) | 2015-09-25 | 2016-09-22 | ステレオ音声信号をプライマリチャンネルおよびセカンダリチャンネルに時間領域ダウンミックスするために左チャンネルと右チャンネルとの間の長期相関差を使用する方法およびシステム |
| JP2018515518A Active JP6976934B2 (ja) | 2015-09-25 | 2016-09-22 | ビットバジェットに応じて2サブフレームモデルと4サブフレームモデルとの間で選択を行うステレオ音声信号の左チャンネルおよび右チャンネルを符号化するための方法およびシステム |
| JP2018515517A Active JP6887995B2 (ja) | 2015-09-25 | 2016-09-22 | セカンダリチャンネルを符号化するためにプライマリチャンネルのコーディングパラメータを使用するステレオ音声信号を符号化するための方法およびシステム |
| JP2020199441A Active JP7140817B2 (ja) | 2015-09-25 | 2020-12-01 | ステレオ音声信号をプライマリチャンネルおよびセカンダリチャンネルに時間領域ダウンミックスするために左チャンネルと右チャンネルとの間の長期相関差を使用する方法およびシステム |
| JP2021084635A Active JP7124170B2 (ja) | 2015-09-25 | 2021-05-19 | セカンダリチャンネルを符号化するためにプライマリチャンネルのコーディングパラメータを使用するステレオ音声信号を符号化するための方法およびシステム |
| JP2021182560A Active JP7244609B2 (ja) | 2015-09-25 | 2021-11-09 | ビットバジェットに応じて2サブフレームモデルと4サブフレームモデルとの間で選択を行うステレオ音声信号の左チャンネルおよび右チャンネルを符号化するための方法およびシステム |
Family Applications Before (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2018515504A Active JP6804528B2 (ja) | 2015-09-25 | 2016-09-22 | ステレオ音声信号をプライマリチャンネルおよびセカンダリチャンネルに時間領域ダウンミックスするために左チャンネルと右チャンネルとの間の長期相関差を使用する方法およびシステム |
Family Applications After (4)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2018515517A Active JP6887995B2 (ja) | 2015-09-25 | 2016-09-22 | セカンダリチャンネルを符号化するためにプライマリチャンネルのコーディングパラメータを使用するステレオ音声信号を符号化するための方法およびシステム |
| JP2020199441A Active JP7140817B2 (ja) | 2015-09-25 | 2020-12-01 | ステレオ音声信号をプライマリチャンネルおよびセカンダリチャンネルに時間領域ダウンミックスするために左チャンネルと右チャンネルとの間の長期相関差を使用する方法およびシステム |
| JP2021084635A Active JP7124170B2 (ja) | 2015-09-25 | 2021-05-19 | セカンダリチャンネルを符号化するためにプライマリチャンネルのコーディングパラメータを使用するステレオ音声信号を符号化するための方法およびシステム |
| JP2021182560A Active JP7244609B2 (ja) | 2015-09-25 | 2021-11-09 | ビットバジェットに応じて2サブフレームモデルと4サブフレームモデルとの間で選択を行うステレオ音声信号の左チャンネルおよび右チャンネルを符号化するための方法およびシステム |
Country Status (16)
| Country | Link |
|---|---|
| US (8) | US10339940B2 (ja) |
| EP (8) | EP3353784B1 (ja) |
| JP (6) | JP6804528B2 (ja) |
| KR (3) | KR102636424B1 (ja) |
| CN (4) | CN108352162B (ja) |
| AU (1) | AU2016325879B2 (ja) |
| CA (4) | CA2997296C (ja) |
| DK (1) | DK3353779T3 (ja) |
| ES (4) | ES2904275T3 (ja) |
| MX (4) | MX383266B (ja) |
| MY (2) | MY186661A (ja) |
| PL (1) | PL3353779T3 (ja) |
| PT (1) | PT3353779T (ja) |
| RU (6) | RU2763374C2 (ja) |
| WO (5) | WO2017049400A1 (ja) |
| ZA (2) | ZA201801675B (ja) |
Families Citing this family (50)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| ES2904275T3 (es) | 2015-09-25 | 2022-04-04 | Voiceage Corp | Método y sistema de decodificación de los canales izquierdo y derecho de una señal sonora estéreo |
| US12125492B2 (en) | 2015-09-25 | 2024-10-22 | Voiceage Coproration | Method and system for decoding left and right channels of a stereo sound signal |
| CN107742521B (zh) * | 2016-08-10 | 2021-08-13 | 华为技术有限公司 | 多声道信号的编码方法和编码器 |
| WO2018058379A1 (zh) * | 2016-09-28 | 2018-04-05 | 华为技术有限公司 | 一种处理多声道音频信号的方法、装置和系统 |
| PT3539127T (pt) * | 2016-11-08 | 2020-12-04 | Fraunhofer Ges Forschung | Dispositivo de downmix e método para executar o downmix de pelo menos dois canais e codificador multicanal e descodificador multicanal |
| CN108269577B (zh) | 2016-12-30 | 2019-10-22 | 华为技术有限公司 | 立体声编码方法及立体声编码器 |
| ES2911515T3 (es) * | 2017-04-10 | 2022-05-19 | Nokia Technologies Oy | Codificación de audio |
| EP3396670B1 (en) * | 2017-04-28 | 2020-11-25 | Nxp B.V. | Speech signal processing |
| US10224045B2 (en) | 2017-05-11 | 2019-03-05 | Qualcomm Incorporated | Stereo parameters for stereo decoding |
| CN109300480B (zh) * | 2017-07-25 | 2020-10-16 | 华为技术有限公司 | 立体声信号的编解码方法和编解码装置 |
| CN117133297A (zh) * | 2017-08-10 | 2023-11-28 | 华为技术有限公司 | 时域立体声参数的编码方法和相关产品 |
| CN109389984B (zh) | 2017-08-10 | 2021-09-14 | 华为技术有限公司 | 时域立体声编解码方法和相关产品 |
| CN113782039A (zh) * | 2017-08-10 | 2021-12-10 | 华为技术有限公司 | 时域立体声编解码方法和相关产品 |
| CN109389987B (zh) * | 2017-08-10 | 2022-05-10 | 华为技术有限公司 | 音频编解码模式确定方法和相关产品 |
| CN109427338B (zh) | 2017-08-23 | 2021-03-30 | 华为技术有限公司 | 立体声信号的编码方法和编码装置 |
| CN109427337B (zh) * | 2017-08-23 | 2021-03-30 | 华为技术有限公司 | 立体声信号编码时重建信号的方法和装置 |
| US10891960B2 (en) * | 2017-09-11 | 2021-01-12 | Qualcomm Incorproated | Temporal offset estimation |
| KR102736785B1 (ko) | 2017-09-20 | 2024-12-03 | 보이세지 코포레이션 | 씨이엘피 코덱에 있어서 서브-프레임들간에 비트-예산을 할당하는 방법 및 디바이스 |
| CN109859766B (zh) * | 2017-11-30 | 2021-08-20 | 华为技术有限公司 | 音频编解码方法和相关产品 |
| CN110556117B (zh) | 2018-05-31 | 2022-04-22 | 华为技术有限公司 | 立体声信号的编码方法和装置 |
| CN114420139A (zh) * | 2018-05-31 | 2022-04-29 | 华为技术有限公司 | 一种下混信号的计算方法及装置 |
| CN110556118B (zh) | 2018-05-31 | 2022-05-10 | 华为技术有限公司 | 立体声信号的编码方法和装置 |
| CN115831130A (zh) * | 2018-06-29 | 2023-03-21 | 华为技术有限公司 | 立体声信号的编码方法、解码方法、编码装置和解码装置 |
| CN115132214A (zh) | 2018-06-29 | 2022-09-30 | 华为技术有限公司 | 立体声信号的编码、解码方法、编码装置和解码装置 |
| EP3928315A4 (en) * | 2019-03-14 | 2022-11-30 | Boomcloud 360, Inc. | SPATIALLY AWARENESS MULTI-BAND COMPRESSION SYSTEM WITH PRIORITY |
| EP3719799A1 (en) | 2019-04-04 | 2020-10-07 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | A multi-channel audio encoder, decoder, methods and computer program for switching between a parametric multi-channel operation and an individual channel operation |
| CN111988726A (zh) * | 2019-05-06 | 2020-11-24 | 深圳市三诺数字科技有限公司 | 一种立体声合成单声道的方法和系统 |
| BR112021020507A2 (pt) | 2019-05-07 | 2021-12-07 | Voiceage Corp | Métodos e dispositivos para detectar um ataque em um sinal de som a ser codificado e para codificar o ataque detectado |
| CN112151045B (zh) * | 2019-06-29 | 2024-06-04 | 华为技术有限公司 | 一种立体声编码方法、立体声解码方法和装置 |
| CN112233682B (zh) * | 2019-06-29 | 2024-07-16 | 华为技术有限公司 | 一种立体声编码方法、立体声解码方法和装置 |
| BR112022000230A2 (pt) * | 2019-08-01 | 2022-02-22 | Dolby Laboratories Licensing Corp | Codificação e decodificação de fluxos de bits de ivas |
| CN110534120B (zh) * | 2019-08-31 | 2021-10-01 | 深圳市友恺通信技术有限公司 | 一种移动网络环境下的环绕声误码修复方法 |
| CN110809225B (zh) * | 2019-09-30 | 2021-11-23 | 歌尔股份有限公司 | 一种应用于立体声系统的自动校准喇叭的方法 |
| US10856082B1 (en) * | 2019-10-09 | 2020-12-01 | Echowell Electronic Co., Ltd. | Audio system with sound-field-type nature sound effect |
| ES3020557T3 (en) | 2020-02-03 | 2025-05-23 | Voiceage Corp | Switching between stereo coding modes in a multichannel sound codec |
| US12170091B2 (en) * | 2020-03-09 | 2024-12-17 | Nippon Telegraph And Telephone Corporation | Sound signal encoding method, sound signal decoding method, sound signal encoding apparatus, sound signal decoding apparatus, program, and recording medium |
| WO2021181746A1 (ja) * | 2020-03-09 | 2021-09-16 | 日本電信電話株式会社 | 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム及び記録媒体 |
| US12374343B2 (en) * | 2020-03-09 | 2025-07-29 | Nippon Telegraph And Telephone Corporation | Sound signal encoding method, sound signal decoding method, sound signal encoding apparatus, sound signal decoding apparatus, program, and recording medium |
| JP7396459B2 (ja) * | 2020-03-09 | 2023-12-12 | 日本電信電話株式会社 | 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム及び記録媒体 |
| CA3170065A1 (en) | 2020-04-16 | 2021-10-21 | Vladimir Malenovsky | Method and device for speech/music classification and core encoder selection in a sound codec |
| CN113571073A (zh) * | 2020-04-28 | 2021-10-29 | 华为技术有限公司 | 一种线性预测编码参数的编码方法和编码装置 |
| CN111599381A (zh) * | 2020-05-29 | 2020-08-28 | 广州繁星互娱信息科技有限公司 | 音频数据处理方法、装置、设备及计算机存储介质 |
| CN111885414B (zh) * | 2020-07-24 | 2023-03-21 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及可读存储介质 |
| US12494210B2 (en) | 2020-09-09 | 2025-12-09 | Voiceage Corporation | Method and device for classification of uncorrelated stereo content, cross-talk detection, and stereo mode selection in a sound codec |
| EP4243015A4 (en) | 2021-01-27 | 2024-04-17 | Samsung Electronics Co., Ltd. | AUDIO PROCESSING APPARATUS AND METHOD |
| CN112767956B (zh) * | 2021-04-09 | 2021-07-16 | 腾讯科技(深圳)有限公司 | 音频编码方法、装置、计算机设备及介质 |
| CN114258568B (zh) * | 2021-11-26 | 2024-12-03 | 北京小米移动软件有限公司 | 一种立体声音频信号处理方法、装置、编码设备、解码设备及存储介质 |
| WO2024142358A1 (ja) * | 2022-12-28 | 2024-07-04 | 日本電信電話株式会社 | 音信号処理装置、音信号処理方法、プログラム |
| WO2024142360A1 (ja) * | 2022-12-28 | 2024-07-04 | 日本電信電話株式会社 | 音信号処理装置、音信号処理方法、プログラム |
| JPWO2024142357A1 (ja) * | 2022-12-28 | 2024-07-04 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002526798A (ja) * | 1998-09-30 | 2002-08-20 | テレフォンアクチーボラゲット エル エム エリクソン(パブル) | 複数チャネル信号の符号化及び復号化 |
| JP2007529021A (ja) * | 2003-12-19 | 2007-10-18 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 忠実度最適化可変フレーム長符号化 |
| JP2008529056A (ja) * | 2005-02-23 | 2008-07-31 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | マルチチャネル音声符号化における適応ビット割り当て |
| JP2013546013A (ja) * | 2010-10-22 | 2013-12-26 | オランジュ | 逆位相のチャネルに対する、改善されたステレオパラメトリック符号化/復号 |
| JP2014500521A (ja) * | 2010-10-25 | 2014-01-09 | ヴォイスエイジ・コーポレーション | 低ビットレート低遅延の一般オーディオ信号の符号化 |
Family Cites Families (64)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH01231523A (ja) * | 1988-03-11 | 1989-09-14 | Fujitsu Ltd | ステレオ信号符号化装置 |
| JPH02124597A (ja) * | 1988-11-02 | 1990-05-11 | Yamaha Corp | 複数チャンネルの信号圧縮方法 |
| US6330533B2 (en) * | 1998-08-24 | 2001-12-11 | Conexant Systems, Inc. | Speech encoder adaptively applying pitch preprocessing with warping of target signal |
| EP1054575A3 (en) | 1999-05-17 | 2002-09-18 | Bose Corporation | Directional decoding |
| US6397175B1 (en) * | 1999-07-19 | 2002-05-28 | Qualcomm Incorporated | Method and apparatus for subsampling phase spectrum information |
| SE519976C2 (sv) * | 2000-09-15 | 2003-05-06 | Ericsson Telefon Ab L M | Kodning och avkodning av signaler från flera kanaler |
| SE519981C2 (sv) * | 2000-09-15 | 2003-05-06 | Ericsson Telefon Ab L M | Kodning och avkodning av signaler från flera kanaler |
| ES2403178T3 (es) * | 2002-04-10 | 2013-05-16 | Koninklijke Philips Electronics N.V. | Codificación de señales estéreo |
| JP2004325633A (ja) * | 2003-04-23 | 2004-11-18 | Matsushita Electric Ind Co Ltd | 信号符号化方法、信号符号化プログラム及びその記録媒体 |
| JP2005202248A (ja) | 2004-01-16 | 2005-07-28 | Fujitsu Ltd | オーディオ符号化装置およびオーディオ符号化装置のフレーム領域割り当て回路 |
| DE102004009954B4 (de) * | 2004-03-01 | 2005-12-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Verarbeiten eines Multikanalsignals |
| US7668712B2 (en) * | 2004-03-31 | 2010-02-23 | Microsoft Corporation | Audio encoding and decoding with intra frames and adaptive forward error correction |
| SE0400998D0 (sv) | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Method for representing multi-channel audio signals |
| US7283634B2 (en) | 2004-08-31 | 2007-10-16 | Dts, Inc. | Method of mixing audio channels using correlated outputs |
| US7630902B2 (en) * | 2004-09-17 | 2009-12-08 | Digital Rise Technology Co., Ltd. | Apparatus and methods for digital audio coding using codebook application ranges |
| WO2006035705A1 (ja) * | 2004-09-28 | 2006-04-06 | Matsushita Electric Industrial Co., Ltd. | スケーラブル符号化装置およびスケーラブル符号化方法 |
| US7848932B2 (en) | 2004-11-30 | 2010-12-07 | Panasonic Corporation | Stereo encoding apparatus, stereo decoding apparatus, and their methods |
| EP1691348A1 (en) * | 2005-02-14 | 2006-08-16 | Ecole Polytechnique Federale De Lausanne | Parametric joint-coding of audio sources |
| US7573912B2 (en) | 2005-02-22 | 2009-08-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. | Near-transparent or transparent multi-channel encoder/decoder scheme |
| US9626973B2 (en) | 2005-02-23 | 2017-04-18 | Telefonaktiebolaget L M Ericsson (Publ) | Adaptive bit allocation for multi-channel audio encoding |
| US7751572B2 (en) | 2005-04-15 | 2010-07-06 | Dolby International Ab | Adaptive residual audio coding |
| US8227369B2 (en) | 2005-05-25 | 2012-07-24 | Celanese International Corp. | Layered composition and processes for preparing and using the composition |
| CN101180675A (zh) * | 2005-05-25 | 2008-05-14 | 皇家飞利浦电子股份有限公司 | 多通道信号的预测编码 |
| EP1920437A4 (en) * | 2005-07-29 | 2010-01-06 | Lg Electronics Inc | METHOD FOR SIGNALING CUTTING INFORMATION |
| CN101253557B (zh) * | 2005-08-31 | 2012-06-20 | 松下电器产业株式会社 | 立体声编码装置及立体声编码方法 |
| US7974713B2 (en) * | 2005-10-12 | 2011-07-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Temporal and spatial shaping of multi-channel audio signals |
| EP1952391B1 (en) * | 2005-10-20 | 2017-10-11 | LG Electronics Inc. | Method for decoding multi-channel audio signal and apparatus thereof |
| KR100888474B1 (ko) * | 2005-11-21 | 2009-03-12 | 삼성전자주식회사 | 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법 |
| JP2007183528A (ja) | 2005-12-06 | 2007-07-19 | Fujitsu Ltd | 符号化装置、符号化方法、および符号化プログラム |
| US9009057B2 (en) | 2006-02-21 | 2015-04-14 | Koninklijke Philips N.V. | Audio encoding and decoding to generate binaural virtual spatial signals |
| JP4875142B2 (ja) | 2006-03-28 | 2012-02-15 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | マルチチャネル・サラウンドサウンドのためのデコーダのための方法及び装置 |
| MX2009003570A (es) | 2006-10-16 | 2009-05-28 | Dolby Sweden Ab | Codificacion mejorada y representacion de parametros para codificacion de objetos de mezcla descendente de multicanal. |
| US20100121633A1 (en) * | 2007-04-20 | 2010-05-13 | Panasonic Corporation | Stereo audio encoding device and stereo audio encoding method |
| US8046214B2 (en) * | 2007-06-22 | 2011-10-25 | Microsoft Corporation | Low complexity decoder for complex transform coding of multi-channel sound |
| EP2201566B1 (en) * | 2007-09-19 | 2015-11-11 | Telefonaktiebolaget LM Ericsson (publ) | Joint multi-channel audio encoding/decoding |
| GB2453117B (en) | 2007-09-25 | 2012-05-23 | Motorola Mobility Inc | Apparatus and method for encoding a multi channel audio signal |
| CA2701457C (en) * | 2007-10-17 | 2016-05-17 | Oliver Hellmuth | Audio coding using upmix |
| KR101505831B1 (ko) * | 2007-10-30 | 2015-03-26 | 삼성전자주식회사 | 멀티 채널 신호의 부호화/복호화 방법 및 장치 |
| US8103005B2 (en) * | 2008-02-04 | 2012-01-24 | Creative Technology Ltd | Primary-ambient decomposition of stereo audio signals using a complex similarity index |
| CN101981616A (zh) | 2008-04-04 | 2011-02-23 | 松下电器产业株式会社 | 立体声信号变换装置、立体声信号逆变换装置及其方法 |
| EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
| CN102177426B (zh) * | 2008-10-08 | 2014-11-05 | 弗兰霍菲尔运输应用研究公司 | 多分辨率切换音频编码/解码方案 |
| CN102292767B (zh) * | 2009-01-22 | 2013-05-08 | 松下电器产业株式会社 | 立体声音响信号编码装置、立体声音响信号解码装置及它们的编解码方法 |
| EP2395504B1 (en) * | 2009-02-13 | 2013-09-18 | Huawei Technologies Co., Ltd. | Stereo encoding method and apparatus |
| WO2010097748A1 (en) | 2009-02-27 | 2010-09-02 | Koninklijke Philips Electronics N.V. | Parametric stereo encoding and decoding |
| CN101826326B (zh) * | 2009-03-04 | 2012-04-04 | 华为技术有限公司 | 一种立体声编码方法、装置和编码器 |
| AU2010225051B2 (en) * | 2009-03-17 | 2013-06-13 | Dolby International Ab | Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding |
| US8666752B2 (en) | 2009-03-18 | 2014-03-04 | Samsung Electronics Co., Ltd. | Apparatus and method for encoding and decoding multi-channel signal |
| BR112012009447B1 (pt) * | 2009-10-20 | 2021-10-13 | Voiceage Corporation | Codificador de sinal de áudio, decodificador de stnai, de áudio, método para codificar ou decodificar um sinal de áudio usando um cancelamento de aliasing |
| KR101710113B1 (ko) * | 2009-10-23 | 2017-02-27 | 삼성전자주식회사 | 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법 |
| EP2323130A1 (en) * | 2009-11-12 | 2011-05-18 | Koninklijke Philips Electronics N.V. | Parametric encoding and decoding |
| WO2011073600A1 (fr) * | 2009-12-18 | 2011-06-23 | France Telecom | Codage/decodage parametrique stereo avec optimisation du traitement de reduction des canaux |
| KR101698439B1 (ko) * | 2010-04-09 | 2017-01-20 | 돌비 인터네셔널 에이비 | Mdct-기반의 복소수 예측 스테레오 코딩 |
| US8463414B2 (en) * | 2010-08-09 | 2013-06-11 | Motorola Mobility Llc | Method and apparatus for estimating a parameter for low bit rate stereo transmission |
| CN102844808B (zh) * | 2010-11-03 | 2016-01-13 | 华为技术有限公司 | 用于编码多通道音频信号的参数编码器 |
| ES2571742T3 (es) * | 2012-04-05 | 2016-05-26 | Huawei Tech Co Ltd | Método de determinación de un parámetro de codificación para una señal de audio multicanal y un codificador de audio multicanal |
| JP5977434B2 (ja) | 2012-04-05 | 2016-08-24 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | パラメトリック空間オーディオ符号化および復号化のための方法、パラメトリック空間オーディオ符号器およびパラメトリック空間オーディオ復号器 |
| US9479886B2 (en) * | 2012-07-20 | 2016-10-25 | Qualcomm Incorporated | Scalable downmix design with feedback for object-based surround codec |
| RU2630370C9 (ru) * | 2013-02-14 | 2017-09-26 | Долби Лабораторис Лайсэнзин Корпорейшн | Способы управления межканальной когерентностью звуковых сигналов, подвергнутых повышающему микшированию |
| TWI634547B (zh) * | 2013-09-12 | 2018-09-01 | 瑞典商杜比國際公司 | 在包含至少四音訊聲道的多聲道音訊系統中之解碼方法、解碼裝置、編碼方法以及編碼裝置以及包含電腦可讀取的媒體之電腦程式產品 |
| TWI557724B (zh) * | 2013-09-27 | 2016-11-11 | 杜比實驗室特許公司 | 用於將 n 聲道音頻節目編碼之方法、用於恢復 n 聲道音頻節目的 m 個聲道之方法、被配置成將 n 聲道音頻節目編碼之音頻編碼器及被配置成執行 n 聲道音頻節目的恢復之解碼器 |
| JP6151866B2 (ja) * | 2013-12-23 | 2017-06-21 | ウィルス インスティテュート オブ スタンダーズ アンド テクノロジー インコーポレイティド | オーディオ信号のフィルタ生成方法およびそのためのパラメータ化装置 |
| US10068577B2 (en) * | 2014-04-25 | 2018-09-04 | Dolby Laboratories Licensing Corporation | Audio segmentation based on spatial metadata |
| ES2904275T3 (es) | 2015-09-25 | 2022-04-04 | Voiceage Corp | Método y sistema de decodificación de los canales izquierdo y derecho de una señal sonora estéreo |
-
2016
- 2016-09-22 ES ES16847686T patent/ES2904275T3/es active Active
- 2016-09-22 RU RU2020124137A patent/RU2763374C2/ru active
- 2016-09-22 EP EP16847687.7A patent/EP3353784B1/en active Active
- 2016-09-22 RU RU2018114901A patent/RU2730548C2/ru active
- 2016-09-22 MX MX2018003703A patent/MX383266B/es unknown
- 2016-09-22 WO PCT/CA2016/051109 patent/WO2017049400A1/en not_active Ceased
- 2016-09-22 US US15/761,900 patent/US10339940B2/en active Active
- 2016-09-22 EP EP21201478.1A patent/EP3961623B1/en active Active
- 2016-09-22 WO PCT/CA2016/051105 patent/WO2017049396A1/en not_active Ceased
- 2016-09-22 JP JP2018515504A patent/JP6804528B2/ja active Active
- 2016-09-22 MX MX2021006677A patent/MX2021006677A/es unknown
- 2016-09-22 AU AU2016325879A patent/AU2016325879B2/en not_active Expired - Fee Related
- 2016-09-22 CN CN201680062546.7A patent/CN108352162B/zh active Active
- 2016-09-22 EP EP16847684.4A patent/EP3353778B1/en active Active
- 2016-09-22 EP EP16847683.6A patent/EP3353777B8/en active Active
- 2016-09-22 WO PCT/CA2016/051108 patent/WO2017049399A1/en not_active Ceased
- 2016-09-22 KR KR1020187008429A patent/KR102636424B1/ko active Active
- 2016-09-22 JP JP2018515518A patent/JP6976934B2/ja active Active
- 2016-09-22 CN CN202310177584.9A patent/CN116343802A/zh active Pending
- 2016-09-22 JP JP2018515517A patent/JP6887995B2/ja active Active
- 2016-09-22 PT PT168476851T patent/PT3353779T/pt unknown
- 2016-09-22 US US15/761,868 patent/US10325606B2/en active Active
- 2016-09-22 CA CA2997296A patent/CA2997296C/en active Active
- 2016-09-22 ES ES16847683T patent/ES2949991T3/es active Active
- 2016-09-22 WO PCT/CA2016/051107 patent/WO2017049398A1/en not_active Ceased
- 2016-09-22 KR KR1020187008428A patent/KR102677745B1/ko active Active
- 2016-09-22 ES ES16847685T patent/ES2809677T3/es active Active
- 2016-09-22 MY MYPI2018700869A patent/MY186661A/en unknown
- 2016-09-22 CN CN201680062618.8A patent/CN108352164B/zh active Active
- 2016-09-22 EP EP16847685.1A patent/EP3353779B1/en active Active
- 2016-09-22 CA CA2997331A patent/CA2997331C/en active Active
- 2016-09-22 EP EP20170546.4A patent/EP3699909B1/en active Active
- 2016-09-22 CA CA2997334A patent/CA2997334A1/en active Pending
- 2016-09-22 WO PCT/CA2016/051106 patent/WO2017049397A1/en not_active Ceased
- 2016-09-22 MX MX2021005090A patent/MX2021005090A/es unknown
- 2016-09-22 KR KR1020187008427A patent/KR102636396B1/ko active Active
- 2016-09-22 ES ES16847684T patent/ES2955962T3/es active Active
- 2016-09-22 RU RU2020125468A patent/RU2765565C2/ru active
- 2016-09-22 MX MX2018003242A patent/MX382211B/es unknown
- 2016-09-22 RU RU2018114899A patent/RU2729603C2/ru active
- 2016-09-22 PL PL16847685T patent/PL3353779T3/pl unknown
- 2016-09-22 CN CN201680062619.2A patent/CN108352163B/zh active Active
- 2016-09-22 US US15/761,883 patent/US10839813B2/en active Active
- 2016-09-22 EP EP16847686.9A patent/EP3353780B1/en active Active
- 2016-09-22 US US15/761,895 patent/US10522157B2/en active Active
- 2016-09-22 RU RU2018114898A patent/RU2728535C2/ru active
- 2016-09-22 MY MYPI2018700870A patent/MY188370A/en unknown
- 2016-09-22 RU RU2020126655A patent/RU2764287C1/ru active
- 2016-09-22 EP EP23172915.3A patent/EP4235659A3/en active Pending
- 2016-09-22 DK DK16847685.1T patent/DK3353779T3/da active
- 2016-09-22 US US15/761,858 patent/US10319385B2/en active Active
- 2016-09-22 CA CA2997332A patent/CA2997332A1/en active Pending
-
2018
- 2018-03-12 ZA ZA2018/01675A patent/ZA201801675B/en unknown
-
2019
- 2019-03-29 US US16/369,086 patent/US11056121B2/en active Active
- 2019-03-29 US US16/369,156 patent/US10573327B2/en active Active
- 2019-04-11 US US16/381,706 patent/US10984806B2/en active Active
-
2020
- 2020-06-11 ZA ZA2020/03500A patent/ZA202003500B/en unknown
- 2020-12-01 JP JP2020199441A patent/JP7140817B2/ja active Active
-
2021
- 2021-05-19 JP JP2021084635A patent/JP7124170B2/ja active Active
- 2021-11-09 JP JP2021182560A patent/JP7244609B2/ja active Active
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002526798A (ja) * | 1998-09-30 | 2002-08-20 | テレフォンアクチーボラゲット エル エム エリクソン(パブル) | 複数チャネル信号の符号化及び復号化 |
| JP2007529021A (ja) * | 2003-12-19 | 2007-10-18 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 忠実度最適化可変フレーム長符号化 |
| JP2008529056A (ja) * | 2005-02-23 | 2008-07-31 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | マルチチャネル音声符号化における適応ビット割り当て |
| JP2013546013A (ja) * | 2010-10-22 | 2013-12-26 | オランジュ | 逆位相のチャネルに対する、改善されたステレオパラメトリック符号化/復号 |
| JP2014500521A (ja) * | 2010-10-25 | 2014-01-09 | ヴォイスエイジ・コーポレーション | 低ビットレート低遅延の一般オーディオ信号の符号化 |
Also Published As
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7244609B2 (ja) | ビットバジェットに応じて2サブフレームモデルと4サブフレームモデルとの間で選択を行うステレオ音声信号の左チャンネルおよび右チャンネルを符号化するための方法およびシステム | |
| US20210027794A1 (en) | Method and system for decoding left and right channels of a stereo sound signal | |
| HK40069408A (en) | Method and system for decoding left and right channels of a stereo sound signal | |
| HK1259052A1 (zh) | 用於解码立体声声音信号的左和右声道的方法和系统 | |
| HK1259052B (en) | Method and system for decoding left and right channels of a stereo sound signal | |
| HK1259477B (en) | Method and system for encoding left and right channels of a stereo sound signal selecting between two and four sub-frames models depending on the bit budget | |
| HK1253569B (en) | Method and system for encoding a stereo sound signal using coding parameters of a primary channel to encode a secondary channel | |
| HK1253570B (en) | Method and system using a long-term correlation difference between left and right channels for time domain down mixing a stereo sound signal into primary and secondary channels | |
| HK1257684B (en) | Method and system for time domain down mixing a stereo sound signal into primary and secondary channels using detecting an out-of-phase condition of the left and right channels |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190904 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201027 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201109 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210209 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210419 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210719 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211011 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211110 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6976934 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |