JP2010505354A

JP2010505354A - 効果的なレート制御および拡張したビデオ符号化品質のためのρ領域フレームレベルビット割り当てのための方法

Info

Publication number: JP2010505354A
Application number: JP2009530426A
Authority: JP
Inventors: ホワヤン; マクドナルドボイスジル
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2006-09-28
Filing date: 2007-09-28
Publication date: 2010-02-18
Anticipated expiration: 2027-09-28
Also published as: WO2008042259A3; US20100111163A1; JP5087627B2; KR20090074173A; KR101329860B1; EP2067358A2; CN101518088B; CN101518088A; WO2008042259A2

Abstract

目標ビットレートでグループオブピクチャを符号化するための方法が特許請求される。事前解析手順（１０５）が、一連のパラメータを作り出すために、グループオブピクチャ内の各フレームについて実行される。次に、事前処理手順が、前記グループオブピクチャ（１１５）から選択されたフレームについて実行され、その結果、選択されたフレームに関連するパラメータが更新されるが、グループオブピクチャからの未符号化フレームに関連するパラメータは同じままである。次に、これら２つの組のパラメータは、フレームが実際に符号化される場合に、割り当てビットレートが符号化操作のために確保されるように、フレームのための割り当てビットレートを決定するために使用される（１２５）。割り当てビットレートとグループオブピクチャのための目標ビットレートとは、異なってよく、割り当てビットレートに関連する量子化レベルは、フレームを符号化するために使用される実際のビットレートに関連する量子化レベルと異なってよい。

Description

関連出願の相互参照
本出願は、参照によりその全体が本明細書に組み込まれる、２００７年９月２８日に出願された、米国特許仮出願第６０／８４８，２５４号の利益を主張する。

本原理は、一般に、ビデオ符号化に関し、より詳細には、指定された平均ビットレートを満たすようにビデオを符号化するための方法および装置に関する。

ビデオ符号化システムでは、レート制御は、良好な全体的ビデオ符号化性能を引き出すうえで、重要な役割を演じる。実際には、異なるアプリケーションシナリオは、異なるタイプのレート制御問題を引き起こすことがあり、それらは、固定ビットレート（ＣＢＲ：constant bit rate）または可変ビットレート（ＶＢＲ：variable bit rate）レート制御に大きく分類することができる。ビデオオンデマンド、ビデオ放送、ビデオ会議、およびビデオ電話などの、リアルタイムのビデオオーバーネットワークアプリケーションでは、制限されたチャネル帯域幅のため、入力ビデオ信号は、通常は一定の平均ビットレートで符号化されなければならず、したがって、ＣＢＲレート制御が必要とされる。他方、例えば、ホームビデオまたは映画をＤＶＤに圧縮するなど、様々なオフラインビデオ圧縮アプリケーションの場合、唯一の制限は全体的な記憶空間であるので、厳格な固定ビットレート制限は存在しない。この場合、ＣＢＲ符号化ほど難しいレート制御課題を課さないＶＢＲ符号化が許容される。

実際のビデオストリーミングシステムでは、フレーム間のビットレート変動と、可変伝送遅延とを吸収し、ひいては、復号ビデオ信号の平滑で連続的なプレイアウトを保証するために、デコーダ側でバッファリングが必要である。異なるフレーム間でビットレート変動が大きすぎる場合、バッファは、アンダーフローまたはオーバーフロー状態になることがある。いずれの場合も、連続的で平滑なビデオのプレイアウトは、もはや維持できない。したがって、良好なＣＢＲレート制御スキームの目的は主に、（ｉ）平均目標ビットレートを達成すること、（ｉｉ）バッファ制約を満たすこと、（ｉｉｉ）一貫したビデオ品質を維持すること、の３つである。これらの中でも、最初の２つの目的が、システムにとってより緊要であり、したがって、一般に実施においてより高い優先順位を与えられる。

ビデオストリーミングアプリケーションは、遅延依存（delay-sensitive）または遅延非依存（delay-insensitive）にさらに分類することができる。例えば、ビデオ会議またはビデオ電話などの、対話型双方向ストリーミングアプリケーションは、（通常は数百ミリ秒より短い）非常に厳格な遅延要件を有し、したがって、小さなサイズのデコーダバッファをもたらす。この場合、平均ビットレートを達成し、バッファ制約を満たした後は、一貫した符号化ビデオ品質のための非常に制限された範囲が存在する。他方、例えば、ビデオオンデマンドまたはビデオ放送などの、一方向ストリーミングアプリケーションでは、数秒または数十秒の遅延が通常は許容可能であり、大きなサイズのバッファが利用できる。

米国特許出願第２００７／０１８４８号明細書

Z. He, Y. Kim, and S. K. Mitra, "Object-level bit allocation and scalable rate control for MPEG-4 video coding," Proc. Workshop and Exhibition on MPEG-4, pp. 63-6, San Jose, CA, June 2001 B. Xie and W. Zeng, "A sequence-based rate control framework for constant quality video," IEEE Trans. Circuits Syst. Video Technol., vol. 16, no. 1, pp.56-71, Jan. 2006 I.-M. Pao and M.-T. Sun, "Encoding stored video for streaming applications," IEEE Trans. Circuits Syst. Video Technol, vol. 11, no. 2, pp.199-209, Feb. 2001 P. H. Westerink, R. Rajagopalan, and C. A. Gonzales, "Two-pass MPEG-2 variable-bit-rate encoding," IBM J. Res. Develop., vol. 43, no. 4, pp. 471-488, Jul. 1999 L.-J. Lin and A. Ortega, "Bit-rate control using piecewise approximated rate-distortion characteristics," IEEE Trans. Circuits Syst. Video Technol., vol.8, no.4, pp.446-59, Aug. 1998 Y. Yue, J. Zhou, Y. Wang, and C. W. Chen, "A novel two-pass VBR coding algorithm for fixed size storage applications," IEEE Trans. Circuits Syst. Video Technol, vol. 11, no. 3, pp.345-36, Mar. 2001 J. Cai, Z. He, and C. W. Chen, "Optimal bit allocation for low bit rate video streaming applications," Proc. ICIP 2002, vol. 1, pp. 22-5, Sept. 2002 N. Kamaci, Y. Altunbasak, and R. M. Mersereau, "Frame bit allocation for the H.264/AVC video coder via Cauchy-density-based rate and distortion models," IEEE Trans. Circuits Syst. Video Technol., vol. 15, no. 8, pp.994-1006, Aug. 2005 A. Ortega, K. Ramchandran, and M. Vetterli, "Optimal trellis-based buffered compression and fast approximations," IEEE Tran. Image Processing, vol. 3, no. 1, pp. 26-40, Jan. 1994 Y. Sermadevi and S. Hemami, "Linear programming optimization for video coding under multiple constraints," Proc. DCC 2003 G. M. Schuster, G. Melnikov, and A. K. Katsaggelos, "A review of the minimum maximum criterion for optimal bit allocation among dependent quantizers," IEEE Trans. on Multimedia, vol. 1, no. 1, pp. 3-17, 1999

これらの考察のすべてに鑑みて、全体的平均ビットレート（ＣＢＲ）を有する一連のビデオフレームで構成されるグループオブピクチャを提供できる一方で、そのような要件を達成するためにそのようなフレームの相対品質を損なうことのない、ビデオエンコーダを製造する必要がある。

従来技術の上記および他の難点並びに不都合は、本原理によって対処され、本原理は、ビデオ符号化のための動き推定予測器（motion estimation predictor）としての、利用可能な動き情報を再使用するための方法および装置に関する。

本原理の一態様によれば、符号化されるフレームのグループオブピクチャを解析する場合に事前符号化および事前解析を使用するエンコーダが提供される。各グループオブピクチャについてのそのようなステップの結果は、同一または類似の全体的平均ビットレートを有するが、そのようなグループオブピクチャ内のフレームは、そのようなフレームの符号化のために割り当てられて確保（reserve）される可変ビットレートを有する。

本原理の上記および他の態様、特徴、並びに利点は、添付の図面と併せて読まれる、例示的な実施形態についての以下の詳細な説明から明らかになろう。

本原理は、以下の例示的な図面によって、より良く理解することができる。

本発明の原理の一実施形態による、グループオブピクチャを符号化するための事前解析および事前処理ステップを実行する例示的なプロセスのブロック図である。本発明の原理の一実施形態による、グループオブピクチャ上で事前解析動作を実行する例示的なプロセスのフローチャートである。本発明の原理の一実施形態による、ρ領域および歪みモデリングに基づいてフレームレベルビット割り当てを実行する例示的なプロセスのフローチャートである。本発明の原理の一実施形態による、各グループオブピクチャを固定ビットレートで符号化する例示的なプロセスであって、そのようなグループオブピクチャ内のフレームは可変ビットレートを有する、例示的なプロセスのフローチャートである。本原理の一実施形態による、本原理が適用され得る事前処理要素を備える例示的なビデオエンコーダのブロック図である。

本発明の原理は、いずれのフレーム内およびフレーム間ベース符号化規格にも適用することができる。加えて、本明細書全体で、「ピクチャ」という用語と「フレーム」という用語は、同義語的に使用される。したがって、フレームという用語またはピクチャという用語は、同じものを表す。

本説明は、本原理を説明する。したがって、本明細書で明示的に説明され、示されていなくても、本原理を実施し、その主旨および範囲内に含まれる様々な構成を、当業者であれば考案できることが理解されよう。

本明細書で述べられるすべての例および条件付きの言葉は、教示を目的とするもので、本原理と当技術分野を発展させるために発明者（ら）が寄与した概念とを読者が理解する助けとなるように意図されており、そのような具体的に述べられた例および条件に限定されると解釈されるべきではない。

さらに、本原理の原理、態様、および実施形態を述べる本明細書内のすべての言表は、それらの具体的な例と同様に、それらの構造的均等物および機能的均等物の両方を包含することが意図されている。加えて、そのような均等物は、現在知られている均等物ばかりでなく、将来開発される均等物も含むことが、すなわち、構造にかかわらず同一機能を実行する、開発されたいかなる要素をも含むことが意図されている。

したがって、例えば、本明細書で提示されるブロック図は、本原理を実施する説明的な回路の概念図を表すことが、当業者であれば理解されよう。同様に、いかなるフローチャート、フロー図、状態遷移図、および疑似コードなども、実際にはコンピュータ可読媒体内で表され、そのため、コンピュータまたはプロセッサが明示的に示されているかどうかにかかわらず、そのようなコンピュータまたはプロセッサによって実行され得る、様々なプロセスを表すことが理解されよう。

図面に示された様々な要素の機能は、専用ハードウェアの使用を通してだけなく、適切なソフトウェアと関連する、ソフトウェアを実行可能なハードウェアの使用を通しても提供することができる。プロセッサによって提供される場合、機能は、単一の専用プロセッサによって、単一の共用プロセッサによって、またはその中のいくつかは共用されてよい複数の個別プロセッサによって提供することができる。さらに、「プロセッサ」または「コントローラ」という用語の明示的な使用は、ソフトウェアを実行可能なハードウェアを排他的に指示すると解釈されるべきではなく、デジタル信号プロセッサ（「ＤＳＰ」）ハードウェア、ソフトウェアを保存するためのリードオンリーメモリ（「ＲＯＭ」）、ランダムアクセスメモリ（「ＲＡＭ」）、および不揮発性ストレージを、これらに限定することなく、暗黙的に含むことができる。

他の従来のハードウェアおよび／またはカスタムハードウェアも含むことができる。同様に、図面に示されたスイッチはいずれも、概念的なものに過ぎない。それらの機能は、プログラムロジックの動作を通して、専用ロジックを通して、プログラム制御と専用ロジックの対話を通して、または手動ですらも実施することができ、具体的な技法は、文脈からより具体的に理解されるように、実装者によって選択可能である。

本明細書の特許請求の範囲では、指定された機能を実行する手段として表された要素はいずれも、例えば、ａ）その機能を実行する回路要素の組合せ、またはｂ）任意の形態のソフトウェアであって、したがって、ファームウェアまたはマイクロコードなどを含み、そのソフトウェアを実行するための適切な回路と組み合わされて当該機能を実行するソフトウェアを含む、その機能を実行する任意の方法を包含することが意図されている。そのような特許請求の範囲によって確定される本原理は、列挙された様々な手段によって提供される機能が、特許請求の範囲が要請する方法で組み合わされ、一緒にされるという事実に存している。したがって、それらの機能を提供できる手段はいずれも、本明細書で示される手段と等価であると見なされる。

本明細書における本原理の「一実施形態（ｏｎｅｅｍｂｏｄｉｍｅｎｔ）」または「一実施形態（ａｎｅｍｂｏｄｉｍｅｎｔ）」に対する言及は、その実施形態に関連して説明された特定の機能、構造、および特徴などが、本原理の少なくとも１つの実施形態に含まれることを意味する。したがって、本明細書の様々な場所で見られる「一実施形態では（ｉｎｏｎｅｅｍｂｏｄｉｍｅｎｔ）」または「一実施形態では（ｉｎａｎｅｍｂｏｄｉｍｅｎｔ）」という句の出現は、必ずしもすべてが同一の実施形態に言及しているわけではない。

本発明の原理は、事前解析／事前処理要素を備える、ハードウェアとして、ソフトウェアで、またはそれらの組合せとして実施される例示的なビデオエンコーダを用いて、図５に示されるように実施され、ビデオエンコーダおよび事前解析／事前処理要素は、全体として、それぞれ参照番号５００および５９０によって示される。事前解析／事前処理要素５９０は、本発明の様々な要素の動作に関する、以下で説明される様々な事前処理および事前解析動作を実行する。

ビデオエンコーダ５００は、変換器（transformer）５１５の入力と信号通信で接続される出力を有する合成器５１０を含む。変換器５１５の出力は、量子化器５２０の入力と信号通信で接続される。量子化器の出力は、可変長コーダ（ＶＬＣ：variable length coder）５６０の第１の入力および逆量子化器５２５の入力と信号通信で接続される。逆量子化器５２５の出力は、逆変換器（inverse transformer）５３０の入力と信号通信で接続される。逆変換器５３０の出力は、合成器５３５の第１の非反転入力と信号通信で接続される。合成器５３５の出力は、ループフィルタ５４０の入力と信号通信で接続される。ループフィルタ５４０の出力は、フレームバッファ５４５の入力と信号通信で接続される。フレームバッファ５４５の第１の出力は、動き補償器５５５の第１の入力と信号通信で接続される。フレームバッファ５４５の第２の出力は、動き推定器５５０の第１の入力と信号通信で接続される。動き推定器５５０の第１の出力は、可変長コーダ（ＶＬＣ）５６０の第２の入力と信号通信で接続される。動き推定器５５０の第２の出力は、動き補償器５５５の第２の入力と信号通信で接続される。動き補償器の第２の出力は、合成器５３５の第２の非反転入力および合成器５１０の反転入力と信号通信で接続される。合成器５１０の非反転入力、動き推定器５５０の第２の入力、および動き推定器５５０の第３の入力は、エンコーダ５００への入力として利用可能である。事前処理要素５９０への入力が、入力ビデオを受け取る。事前解析／事前処理要素５９０の第１の出力は、合成器５１０の非反転入力および動き推定器５５０の第２の入力と信号通信で接続される。事前解析／事前処理５９０の第２の出力は、動き推定器５５０の第３の入力と信号通信で接続される。可変長コーダ（ＶＬＣ）５６０の出力は、エンコーダ５００の出力として利用可能である。図５のエンコーダは例示的なエンコーダを表しているので、事前解析／事前処理要素５９０は、いくつかのさらなる要素に分割できること、エンコーダの他の要素に結合できることを理解されたい。

本発明の特定の処理要素が、そのような要素がなぜ本発明によって利用されるのかについての対応する説明とともに提示される前に、図４は、本発明の例示的な符号化方法４００のフローチャートを詳述しており、当該方法は、固定ビットレートのグループオブピクチャ（ＧＯＰ間ＣＢＲ）を生成するために使用されるが、その一方で、各グループオブピクチャ内のフレームは、異なるビットレート（フレーム内ＶＢＲ）で符号化される。符号化方法４００は、本発明で使用される符号化解析／符号化プロセスの全体像を表している。

ステップ４０５は、符号化される原グループオブフレーム(original group of frame)内の各フレームの事前解析を実行する問題を導入する。後で説明されるように、本発明の一実施形態は、グループオブピクチャ内の各フレームについて共通の歪みを仮定する、ρ領域レートモデルを利用する。事前解析動作の結果は、符号化されたグループオブピクチャを生成するために、後でそのようなフレームが符号化される場合に利用される、ρ−ＱＰおよびＤ’−ＱＰなどのパラメータを生成する。

ステップ４１０は、原グループオブピクチャ(original group of picture)からの特定のフレームが、符号化される前のその特定のフレームに関連するρ−ＱＰおよびＤ’−ＱＰを更新するために解析される、事前処理ステップを導入する。すなわち、符号化される現フレームの後に来るフレームに関連するρ−ＱＰおよびＤ’−ＱＰは、事前解析フェーズからのものであるが、現フレームのρ−ＱＰおよびＤ’−ＱＰは、このステップの最中に更新され、その結果、符号化されるＧＯＰについて全体的目標ビットレートが満たされ得るように、割り当てビットレートが現フレームの符号化のために確保される。これは、例えば、Ｉフレーム／ピクチャ（または複合Ｐフレーム／ピクチャ）の割り当てビットレートは、単純な複雑さのＩまたはＰフレーム／ピクチャよりも、符号化動作のために確保されるビットをより多く有することを意味する。これはまた、特定のグループオブピクチャについて、第１のフレームのために割り当てられるビットレートが第２のフレームの符号化のために割り当てられるビットレートと異なるように、各フレームのための割り当てビットレートがフレーム毎に変化し得ることも意味する。

フレームが符号化される場合、エンコーダは、グループオブピクチャが符号化されるときに目標ビットレート（ＣＢＲ）にあることを提供するために、符号化される先行および現フレームの符号化において消費されるビットレートを考えなければならない。したがって、ρ−ＱＰパラメータおよびＤ’−ＱＰパラメータは、（フレームを符号化するために使用される量子化レベルに影響する）割り当てビットレートがＧＯＰのフレーム毎に変化する場合に、符号化されるＧＯＰの目標ビットレートが満たされるように調整される。これは、エンコーダが、全体的目標ビットレートが満たされ得るように、各フレームのための割り当てビットレートを確保しなければならないことを意味する。

ステップ４１５において、現フレームが符号化され、割り当てビットレートは、現フレームに関連づけられる。しかし、現フレームが実際に符号化される場合、そのようなフレームを符号化するために使用される実際の量子化レベルを決定するために、マクロブロックレベルのビット割り当てなどの操作が使用されることを理解されたい（その場合、フレームのために確保された割り当てビットレートに関連する量子化レベルは、その特定のフレームを符号化するために使用される当該量子化レベルではない）。しかし、本発明の目的は、実際の符号化プロセスのための割り当てビットレートを取っておき（set aside）、その結果、システムは、どのフレームが（第１の量子化レベルにおける）符号化のためにより多くのビットを必要とし、どのフレームがそのフレームのための割り当てビットレートに関連するビットを僅かしか必要としないかを事前推測し、その場合、ステップ４１０および４１５は、（原ＧＯＰのフレームのすべてが符号化されるステップ４２０において）符号化されるＧＯＰのための目標ビットレートが満たされるように、原ＧＯＰ内の連続する各フレームについて繰り返される。

本発明は、ＧＯＰ内の選択フレームだけが符号化される場合に実施することができ、上で説明されたプロセスは、それらのフレームに対してだけ実行される。例えば、原ＧＯＰは３０フレーム毎秒での配信用に構成されてよいが、（符号化された場合の）ＧＯＰの実際の配信は、１５フレーム毎秒でだけビデオを復号できるシステム用とし得ると決定することができる。したがって、原ＧＯＰ内のフレームがある間隔で選択される、または特定のフレームタイプ「Ｉフレーム／ピクチャ」が他のフレームタイプ「Ｐフレーム／ピクチャ」よりも優先して選択されるといった、事前解析の追加操作が存在してよい。

上述の所望の結果を実施するため、本発明の一実施形態は、ρ領域レートおよび歪み（ＲＤ：rate and distortion）モデリングに基づいた、フレームレベルビット割り当て（ＦＢＡ：frame-level bit allocation）についてのソリューションを利用する。提示されるＦＢＡスキームは、簡略化された符号化、新しい効率的で正確な歪みモデル、低複雑度最適化アルゴリズム、および適切に設計されたモデルパラメータ更新スキームを介した、参照および符号化モード不一致の効果的な削減にある。他の既存のＦＢＡソリューションと比較して、提案されるスキームは、複雑度対性能のより良いトレードオフを達成する。複雑度の適度な増大によって、提案されるＦＢＡスキームは、既存の分散ベースＦＢＡスキームが達成するよりもはるかに効率的なレート制御を達成し、知覚ビデオ符号化品質に著しい改善をもたらす。

本発明の以下の実施形態は、一方向非対話型ビデオストリーミングアプリケーションを目標とするが、本発明のそのような原理は、双方向および／または対話型能力を使用する他のビデオ配信アプリケーションでも使用することができる。特に、そのような他の配信アプリケーションは、ビデオストリームの復号／配信においてバッファ／メモリ制約が問題ではなくなる、十分なバッファサイズおよび配信コンテンツの事前ローディング時間が仮定される場合に使用することができる。

実際には、レート制御は、フレームレベルおよびマクロブロック（ＭＢ）レベルで実行される。総符号化ビットレートが、特定のフレーム当たりどれだけのビットがその符号化のために必要かを指定するために、最初にフレームレベルで割り当てられ、次に、フレームの異なるＭＢに対して、ビットがさらに割り当てられる。その結果、各ＭＢの量子化スケールが、ＭＢの実際の符号化のために決定される。本発明は、フレームレベルビット割り当て（ＦＢＡ）に基づいた完全なソリューションを説明する。

具体的には、本発明は、ρ領域ＲＤモデルベースのＦＢＡソリューションを提示する。本発明は、非特許文献１の既存のρ領域レートモデルからの概念と、フレームの実際のＲＤ特性を推定するための、Ｈ．ＹａｎｇおよびＪ．Ｂｏｙｃｅによって、２００７年８月２１日に出願された「An analytic and empirical hybrid source coding distortion model with high modeling accuracy and low computation complexity」と題するＰＣＴ出願である特許文献１において提示された、新しい効率的な歪みモデルからの概念に基づいて構築される（および改良される）。参照および符号モード不一致の影響を緩和し、ひいてはＲＤモデリングの動作精度を改善するため、慎重に設計され簡略化された符号化アルゴリズムが、グループオブピクチャ（ＧＯＰ）内のすべてのフレームのＲＤデータを収集するために、ＧＯＰの符号化に先立つ事前解析プロセスを介して適用される。現フレームに関しては、ＦＢＡのために使用されるそのＲＤデータは、そのフレームの符号化に先立つ事前処理手順において再計算され、その時点で、その正確な参照フレームが利用可能である。フレームレベルＲＤデータに基づいて、ＦＢＡ問題を解決する効率的な最適化スキームが提案され、そのスキームでは、ＧＯＰのすべてのフレームは、同じ歪みレベルを用いて符号化され、その目的は、目標の総ビットレートの制約を受ける、最小の固定歪みを見出すことである。さらに、他のいかなるρ領域ＦＢＡ手法とも異なり、提案されるスキームは、事前解析および事前プロセスデータに関するＲＤモデルパラメータを別々に更新するために、独特に設計された手法を採用する。最後に、徹底的な実験を通して、発明者らは、提案されるＦＢＡスキームが一貫して、既存の分散ベースＦＢＡ手法よりも性能的に優れており、全体的な知覚ビデオ符号化品質に著しい改善をもたらすことを確認した。

ＦＢＡに関して、既存のスキームは、発見的スキームまたはＲＤ効率ベーススキームとして、大きく分類することができる。大部分の発見的ＦＢＡスキームは、複雑度測定ベーススキームと見なすことができ、そのようなスキームはたいてい、単純だが有益な直観から始められ、すなわち、すべてのフレームが同様の符号化品質を担い、総ビット予算（total bit budget）が同時に正しく使い切られるように、より多くのビットを複雑なフレームに割り当て、より少ないビットを単純なフレームに割り当てる。これらのスキームでは、ある種の量、例えば、差分絶対値和（平均差分絶対値、ＭＡＤ：mean-absolute-difference）（非特許文献２を参照）、または予測残差フレーム（prediction residue frame）の分散（非特許文献３を参照）、またはＣＢＲ符号化におけるフレームの量子化パラメータ（ＱＰ）（非特許文献４を参照）が、フレームの符号化複雑度を測定するために使用され、ビットは、複雑度の値に従って、比例的に各フレームに割り当てられる。

他方、符号化複雑度を発見的に測定する代わりに、ＲＤＦＢＡスキームは、フレームのＲＤ関数（RD function）を直接的に推定し、その後、これらのＲＤデータをアルゴリズム内で適用して、ＦＢＡ解（FBA solution）を見出す。ＲＤ効率ベースＦＢＡスキームは一般に、発見的な手法よりも効果的なレート制御および良好な全体的ビデオ符号化品質をもたらし、したがって、（例えば、低複雑度実施（非特許文献５を参照）のため、または厳格な複雑度制約を引き起こさないオフラインビデオ符号化（非特許文献６、非特許文献７を参照）のため）増大する複雑度が妥当なものである場合は常に、実際的により好ましい。本発明は、ＲＤ効率ベースＦＢＡにも焦点を置く。次に、従来技術にまさる本発明のいくつかの主要な特徴が開示される。

ＲＤ最適化ＦＢＡでは、第１の重大問題は、各フレームのＲＤ関数をいかに正確に推定するかであり、それに対して、非常に様々な異なるＲＤモデルが、これまでに提案されてきた。レートモデリングに関して、Ｈｅ、Ｋｉｍ、およびＭｉｔｒａの論文（非特許文献１）で提案されたρ領域レートモデルは、低い計算複雑度で高いモデリング精度をもたらし、したがって、他の既存のレートモデルと比べて優れた方法である。しかし、正確なρ領域レートモデルの既存のアプリケーションの大部分は、ＭＢレベルのレート制御に焦点を置いている。本発明は、そのモデルをフレームレベルのレート制御で適用するためのスキームを提示する。既存のＭＢレベルのスキームとともに、申し分のないρ領域レートモデリングベースのレート制御フレームワークが達成できる。発明者らの知る限りでは、同様のトピックについて唯一公表された研究は、Ｃａｉ、Ｈｅ、およびＣｈｅｎの論文（非特許文献７）のものであるが、その論文では、ＤＶＤおよび映画用のオフラインビデオ圧縮アプリケーションを目標にしており、ρ領域ＲＤモデルは、全ビデオ系列のＶＢＲ符号化において最適化ＦＢＡのために適用されている。対照的に、本発明者らのスキームは、ＣＢＲレート制御を用いたリアルタイムビデオストリーミングアプリケーションを目標にしており、そうしたアプリケーションは、符号化遅延および複雑度に対してはるかに厳格な制限を課す。

ソース符号化歪みモデリングに関して、既存のＲＤ効率ベースＦＢＡスキームは、ＱＰベースまたはρベース解析モデル（Ｈｅ、Ｋｉｍ、およびＭｉｔｒａの論文（非特許文献１）、非特許文献８、および非特許文献９を参照）、またはＬｉｎおよびＯｒｔｅｇａの論文（非特許文献５）で開示されたような、補間ベース経験的モデルを採用している。ＹａｎｇおよびＢｏｙｃｅの特許出願（特許文献１）で開示されたモデルでは、より正確な解析的および経験的ハイブリッド歪みモデルが提案されており、そのモデルは、高速テーブル検索(fast table look-up)計算のために依然として低い計算複雑度をもたらす。本発明の説明される実施形態では、発明者らが提案するＲＤ最適化ＦＢＡソリューションにおける、この優れた歪みモデルが採用され、他のあまり正確ではないモデルにまさる改善された性能をもたらす。

正確なソース符号化ＲＤモデルを用いた場合、あるフレームの予測参照フレームと、（動きベクトルとＭＢまたはブロック符号化モードとの両方を含む）すべてのＭＢの符号化モードとが与えられると、そのフレームのＲ−ＱＰとＤ−ＱＰの関係を正確に推定することができる。しかし、実際のＦＢＡ問題では、フレームのＲＤ関数は、符号化プロセスに先立って推定されなければならない。動き補償予測ビデオ符号化フレームワークのため、すべての先行フレームを実際に符号化することなく、あるフレームの正確な参照および符号化モードを知ることは決してできない。したがって、ＦＢＡにおいて仮定された参照および符号化モードと実際の符号化から得られるそれらとの間には、必然的な不一致が存在し、その不一致は、基本ＲＤモデルの実際の動作推定精度をはっきりと低下させる。

実際、この不一致問題は、ＲＤ関数のフレーム間依存問題として、長く認識されてきた。フレーム間依存の影響を正確に考慮するため、いくつかの既存のスキームは、網羅的な符号化（非特許文献９を参照）、またはフレームのすべての可能なＱＰ組合せに対する（ＬｉｎおよびＯｒｔｅｇａの論文（非特許文献５）で説明されているような）網羅的なモデリングに頼っているが、それらは、法外な計算複雑度を招く。低複雑度の方を追求するもう一方の極端として、いくつかのスキームは、事前解析における参照フレームとして単純に原ビデオフレームを利用するが（Ｙｕｅ／Ｚｈｏｕ／Ｗａｎｇ／Ｃｈｅｎの論文（非特許文献６）を参照）、しかし、それらは、ＲＤ推定精度を、ひいては結果のレート制御性能を大きく低下させることがある。複雑度と性能のより良好なトレードオフを図るため、いくつかのソリューションは、符号化の１つの単一パスを介して事前解析を行う（Ｃａｉ、Ｈｅ、Ｃｈｅｎの論文（非特許文献７）、および非特許文献１０を参照）。不一致の影響を効果的に補償するため、事前解析符号化のパスは、目標ビットレートを用いたＣＢＲ符号化（Ｓｅｒｍａｄｅｖｉ／Ｈｅｍａｍｉの論文（非特許文献１０）を参照）とすること、またはすべてのフレームに対してある固定ＱＰを使用すること（Ｃａｉ／Ｈｅ／Ｃｈｅｎの論文（非特許文献７）を参照）ができる。本発明では、１つのパスの「完全(full)」符号化を使用する代わりに、発明者らは、参照および符号化モードの不一致補償のための、固定ＱＰを用いる「簡略化された(simplified)」符号化の手法を開発し、その手法では、Ｐ１６×１６（またはＩ１６×１６）モードだけが、Ｐフレーム（またはＩフレーム）符号化において適用され、エントロピー符号化は含まれない。実際には、完全符号化は、含まれる符号化オプションをより多くまたはより少なくすることで、様々な異なる度合いに簡略化することができる。発明者らの簡略化スキームは、ある１組の符号化オプションを含み、その符号化オプションは、良好な複雑度対性能のトレードオフを表すことが、徹底的な実験の結果に裏づけられて判明している。さらに、ＱＰ不一致の影響の徹底的な調査の後、発明者らは、固定ＱＰのレベルを選択するための効果的な方法を開発した。したがって、本発明の原理は、事前解析不一致補償におけるより効果的なソリューションを開示する。

各フレームのＲＤデータを計算した後、次にそれらを使用して、ＦＢＡを最適化することができる。改善基準に関して、一般に採用されるスキームは、平均ＭＳＥ歪みを最小化することである（Ｌｉｎ／Ｏｒｔｅｇａの論文（非特許文献５）またはＹｕｅ／Ｚｈｏｕの論文（非特許文献６）を参照）。しかし、平均歪みの最小化は、良好な知覚ビデオ品質にとっても重要な、フレーム間での低い品質変動を補償しない。したがって、いくつかのより高度なスキームは、最大歪みを最小化すること（非特許文献１１を参照）、または歪みの平均および変動の組合せを最小化すること（Ｌｉｎ／Ｏｒｔｅｇａの論文（非特許文献５）を参照）を選択する。本発明では、歪みが固定レベルにある場合が、最適化手法において、すべてのフレームに対して仮定され、勾配降下探索（gradient descent search）と２分探索（bisectional search）を組み合わせた高速探索アルゴリズムが、目標ビットレート制約を満たしながら、最小歪みレベルを見出すために開発された。既存の最適化アルゴリズムと比較すると、発明者らのスキームは、複雑度がより低いばかりでなく、固定品質最大化をより直接的に目標にし、したがって、実際のビデオストリーミングシステムにおいて、改善された知覚ビデオ符号化品質のためにより適切である。

提案されるＦＢＡソリューションは、その独特に設計されたＲＤモデルパラメータ更新スキームにも立脚しており、そのスキームでは、事前解析および事前プロセスモデルのパラメータは、２つの異なるサイズのスライディングウィンドウを用いて別々に維持される。実際には、ビデオ信号は、例えば、白一色のフレームまたはまったく動きのないフレームなど、通常とは異なるフレームを含むことがあり、そうしたフレームの符号化は、非常に僅かなビットしか消費せず、モデルパラメータ更新に含まれるべきではない。したがって、本発明は、実施に際して様々なシステム障害を防止し、システム全体をスムーズに動作させ続けるために、通常とは異なるフレームの効果的な識別と、他のいくつかの例外処理とを含む。

図４で説明された概念を実施するため、本発明は、効果的なレート制御のためのρ領域ＲＤＦＢＡソリューションを提案する。発明者らのスキームは、一方向非対話型ビデオストリーミングアプリケーションを目標とし、そうしたアプリケーションは通常、厳格な遅延制約をもたない。本明細書において、発明者らは、十分なバッファサイズを仮定し、したがって、バッファ制約は関係しない。発明者らは、符号化前にＧＯＰ全体が利用可能であることを仮定し、それは、１つのＧＯＰの符号化遅延を招く。ある指定された目標ビットレートについて、異なるＧＯＰ間のＣＢＲ符号化と、単一のＧＯＰ内のＶＢＲ符号化が仮定され、それは、各ＧＯＰが（目標平均ビットレートから決定される）同じ総ビット予算を有し、ＦＢＡがＧＯＰ内のすべてのフレームにわたって実行されることを意味する。

符号化されるピクチャで構成される原ＧＯＰの符号化プロセス１００が、図１に示されている。原ビデオフレームからなる１つのＧＯＰが利用可能になると、発明者らが提案する簡略化された符号化手法を使用して、各フレームからＲＤモデリングデータを収集するために、事前解析プロセス１０５が最初に開始される。シーン変化検出も、事前解析において実現される。ＧＯＰ内部にシーン変化が存在しない場合、そのＧＯＰは、第１フレームがＩフレームになり、残りのフレームがＰフレームになるように符号化される。シーン変化が存在する場合、シーン変化フレームは、同様にＩフレームとして符号化される。事前解析の後、ステップ１１０において、原ＧＯＰの実際の符号化が、フレーム毎に実行される。各Ｐフレームが符号化される前に、現フレームのＲＤデータが、簡略化された符号化を介して再収集される。この時点で、正確な予測参照フレームが利用可能になるので、参照不一致なしに、より正確なＲＤ推定が達成できる。発明者らは、ステップ１１５において、この動作を事前プロセスと呼んでいる。次に、ステップ１２０において、最適化ＦＢＡが、残りのすべてのフレームにわたって実行され、各フレームは、ある量のビットを割り当てられる。次に、ＭＢレベルのレート制御の助けを借りて、割り当てられたビット予算を達成するように、現フレームが実際に符号化される。実際の消費ビットに基づいて、ＧＯＰ内の残りのフレームのための予算が更新される。事前プロセス、ＦＢＡ、および符号化からなるステップ１１０のプロセス全体が、次のフレームに対しても繰り返され、それ以降も同様である。

各モジュールの詳細に取りかかる前に、最初に、提案されたＦＢＡスキームにおいて採用されたＲＤモデルについて検討する。レートモデリングのために、発明者らは、Ｈｅ／Ｋｉｍ／Ｍｉｔｒａの論文において提案されたρ領域モデルを採用するが、それは以下のように定義される。
Ｒ（ＱＰ）＝θ・（１−ρ（ＱＰ））＋Ｃ（１）

ここで、ρ（ＱＰ）は、ＱＰを用いた量子化の後の、すべての係数に対するゼロ量子化係数の比を表す。Ｃは、係数符号化ビット以外の他のすべてのオーバーヘッドビットを表し、ピクチャヘッダビット、マクロブロックヘッダビット、符号化モードビット、および動きベクトル（ＭＶ）ビットを含む。θは、ＱＰとは独立の、別のモデルパラメータである（上記論文を参照）。ρがＱＰとの１対１のマッピングを有することに留意されたい。Ｈｅ／Ｋｉｍ／Ｍｉｔｒａの論文（非特許文献１）では、Ｒがρと非常に強い線形関係を有することが示され、それは、当該モデルの高いモデリング精度を補償する。その優れた性能は、発明者らの徹底的な実験においても立証された。

発明者らの歪みモデルは、Ｙａｎｇ／Ｂｏｙｃｅの特許出願（特許文献１）において開示されたハイブリッドモデルであり、

と定義される。

ここで、Ａは、フレーム内のピクセルの総数を表す。Ｑは、ＱＰに関係する量子化ステップサイズを表す。Ｈ．２６４では、ＱＰは、０から５１までの範囲にわたり、ＱＰとＱの間の関係は、
Ｑ≒２^(QP-4)/6 （３）
である。Ｃｏｅｆｆ_z（ＱＰ）は、ＱＰを用いてゼロに量子化される係数の大きさを表す。この歪みモデルでは、全体的なＭＳＥ歪みは、非ゼロ量子化係数の歪み寄与Ｄ_nz（ＱＰ）とゼロ量子化係数の歪み寄与Ｄ_z（ＱＰ）の２つの部分に分割されることが理解できる。モデリング近似は、一様に分布される量子化誤差が仮定される、非ゼロ量子化係数の歪みを計算する際にだけ行われる。ゼロ量子化係数の歪みは、いかなる近似も行わずに、正確に計算される。当該モデルの最も顕著な利点は、Ｄ_z（ＱＰ）の正確な計算が、複雑度の最低限の増大を招くに過ぎない、高速テーブル検索手法を用いて実行できることである。したがって、当該モデルは、既存モデルよりも高い精度を達成しながらも、依然として低い複雑度を維持する。

実際には、発明者らは、参照および符号化モード不一致が、歪みモデリングの性能を、レートモデリングに対して行うよりも深刻に低下させ得ることを見出した。したがって、追加のモデルパラメータαが、以下に示されるように、不一致効果を補償するために導入される。ここで、Ｄ’は、（２）からの歪み推定を表す。
Ｄ（ＱＰ）＝α・Ｄ’（ＱＰ）（４）

事前解析の目的は、ＧＯＰの各フレームについて、ρ−ＱＰテーブルおよびＤ’−ＱＰテーブルを計算することであり、それらのテーブルは、後で最適化ＦＢＡにおいて使用される。発明者らが提案する事前解析スキーム２００のブロック図が、図２に示されている（ステップ１０５を参照し直されたい）。ＲＤモデリングにおける参照および符号化モード不一致の影響を効果的に緩和するため、事前解析用の簡略化された符号化手法は、フレームを符号化する場合に、１つの単一ＭＢ符号化だけを、すなわち、Ｐフレームに対してはＰ１６×１６、またはＩフレームに対してはＩ１６×１６を、それぞれ使用する。

ステップ２０５におけるように、フレームから開始して、Ｈ．２６４の完全符号化プロセスでは、様々な符号化モードが、各ＭＢについて、例えば、Ｐ１６×１６、Ｐ１６×８、Ｐ８×１６、Ｐ８×８、Ｐ８×４、Ｐ４×８、Ｐ４×４、途中を省略して、Ｉ１６×１６、およびＩ４×４などについて、チェックされることを必要とし（ステップ２１０、ステップ２１５）、それは、相当量の複雑度を招く。既存の事前解析スキームは、完全符号化を利用するか（Ｃａｉ／Ｈｅ／Ｃｈｅｎ（非特許文献７）を参照）、またはまったく符号化を行わない（Ｙｕｅ／Ｚｈｏｕ／Ｗａｎｇ／Ｃｈｅｎ（非特許文献６）を参照）。本発明では、２つの極端の間の良好なバランスを使用し、それは、複雑度とモデリング精度の間の良好なトレードオフをもたらす。徹底的な実験を通して、（ｉ）Ｐ１６×１６またはＩ１６×１６モードだけの使用は、すべての合法なモードを用いてチェックすることに比べて、モデリング精度を大きく犠牲にしないこと、（ｉｉ）フルピクセル動き推定（ＭＥ）は貧弱なモデリング性能をもたらすので、サブピクセルＭＥが必要であること、（ｉｉｉ）拡張予想区域探索（ＥＰＺＳ：enhanced predictive zonal search）ＭＥは、完全探索ＭＥの精度に近い精度を達成し、ログ探索の低複雑度ＭＥスキームの精度よりもはるかに良好であること、（ｉｖ）実際の符号化のＭＥ探索範囲が１２８である場合、事前解析にとって良好な探索範囲は６４とすることができるが、３２とすることはできないことが決定された。これらの有益な結果は、提案された事前解析スキームの対応する設定を最終的なものにする。

発明者らの事前解析プロセスでは、レートモデリングのためのρ−ＱＰデータを収集することだけを必要とするので、エントロピー符号化は関与しないことに留意されたい。それ以外に、発明者らのスキームは、予測参照のための再構成フレームを取得するために、量子化、逆変換、および逆量子化などを必要とする。本明細書では、量子化のためのＱＰをどのように選択するかを決定する必要がある。Ｃａｉ／Ｈｅ／Ｃｈｅｎの論文（非特許文献７）におけるのと同様に、ＧＯＰのすべてのフレームが、事前解析のために固定ＱＰを使用することが仮定される。この場合、元の参照不一致問題は、ＱＰ不一致問題になり、その問題については、発明者らは、採用したＲＤモデルの性能に対するその影響を完全に調査した。実験では、多くの様々なビデオ系列について、発明者らは、実際の符号化の場合は、ＱＰ＝２５、３５、４５を適用し、事前解析の場合は、符号化ＱＰ＋５または符号化ＱＰ−５を適用した。実験結果は、レートモデリングに関して、過小評価ＱＰ（すなわち、事前解析ＱＰが実際の符号化ＱＰより小さい）は、過大評価ＱＰよりも好ましく、符号化ＱＰ＋５を用いた場合、レートモデリング精度は、符号化ＱＰ−５のレートモデリング精度よりもはるかに悪くなることを示した。歪みモデリングに関しては、過大評価ＱＰは、過小評価ＱＰよりも良好である。しかし、過小評価ＱＰによる性能低下は、あまり大きくない。さらに、実際には、正確なレート制御は、バッファオーバーフローまたはアンダーフローに起因するシステム障害を回避するために常に必要であるので、正確なレートモデリングは、正確な歪みモデリングの優先順位よりも高い優先順位をもつ。したがって、全体として、ＱＰ不一致が不可避である場合、事前解析においては、過小評価ＱＰが過大評価ＱＰよりも好ましい。発明者らのスキームでは、現ＧＯＰの事前解析ＱＰＱＰ_preA,currGOPは、

によって決定される。

ここで、「ｐｒｅＡ」は、事前解析を表す。

は、先に符号化されたＧＯＰの平均ＱＰを表す。ΔＱＰ_guardは、より高い可能性でＱＰ_preA,currGOPを実際の符号化ＱＰよりも過小評価させるための、ＱＰ保護ギャップ（guardian gap）である。

発明者らの事前解析スキームでは、（ステップ２２５におけるような）ρ−ＱＰテーブルおよびＤ’−ＱＰテーブルの計算は、高速テーブル検索を介して実行され、したがって、計算全体は、複雑度の著しい増大を招かない。参照が便利なように、（ステップ２２５、２３０、２３３に関して実行される）高速計算アルゴリズムが、以下で与えられる。当該方法は、フレーム内の各マクロブロックについて、ステップ２１０からステップ２３５を使用して、ピクチャのそのようなマクロブロックがすべて処理されるまで、そのような解析を繰り返す。

ブロックレベル計算：各変換ブロックについて：
１．初期化：∀ＱＰ，ρ（ＱＰ）＝０，Ｄ_z（ＱＰ）＝０
２．ワンパステーブル検索：各係数Ｃｏｅｆｆ_iについて：
１）Ｌｅｖｅｌ_i＝｜Ｃｏｅｆｆ_i｜
２）ＱＰ_i＝ＱＰ＿ｌｅｖｅｌ＿Ｔａｂｌｅ［Ｌｅｖｅｌ_i］。ＱＰ＿ｌｅｖｅｌ＿Ｔａｂｌｅは、各係数レベルについて、その特定のレベルの係数をゼロになるように量子化する最小ＱＰを指示するテーブルである。

３）

３．合算：各ＱＰについて、ＱＰ_minからＱＰ_maxまで：

上記のことから、すべてのＱＰのρおよびＤ_zは、すべての変換係数にわたる、ワンパスのＱＰ＿ｌｅｖｅｌ＿Ｔａｂｌｅ検索を介して正確に計算することができ、それにかかる計算コストはかなり低い。フレームのすべてのブロックについて｛ρ（ＱＰ），Ｄ_z（ＱＰ）｝_QPを獲得した後、以下に示されるように、対応するフレームレベルの量を取得するために（ステップ２４０）、これらのデータをそれぞれ平均することができる。ここで、Ｂは、フレーム内のブロックの総数を表す。

フレームレベル計算：各ＱＰについて：
１）

２）

それ以外の場合は、Ｄ_z（ＱＰ）＝０
３）次に、（２）におけるように、ρ（ＱＰ）およびＤ_z（ＱＰ）を用いて、Ｄ’（ＱＰ）が計算できる。

（図１のステップ１２５におけるように）Ｐフレームを符号化する前に、そのＰフレームの先行フレームがすでに符号化されており、したがって、実際の参照が分かることに留意されたい。この時点で、より正確なρ（ＱＰ）およびＤ’（ＱＰ）データが、（図１のステップ１１５に関する）フレームの事前プロセスを介して計算できる。Ｐフレームの事前プロセスのステップは、量子化および他の再構成ステップをもはや必要としないことを除いて、事前解析のものとほとんど同じである。Ｉフレームはフレーム内予測しか伴わないので、事前プロセスを必要としないことに留意されたい。

（ステップ１２０に関する）ＦＢＡアルゴリズムの例示的な一実施形態が、ＦＢＡフローチャート３００として図３に示されている。事前解析および事前処理ステップからのパラメータが、符号化されるフレームに対して使用され、そのようなパラメータは、ステップ３０５において、メモリから獲得される。加えて、エンコーダは、符号化されるグループオブピクチャのための全体的なビットレートを満たすように、ステップ３１０において、ＧＯＰ内の符号化されるフレームのために残っているビット予算について検討しなければならない。（ステップ３１５において）残りの予算が十分であるかどうかについて、検討が行われる。

異なるフレームにわたって一貫したビデオ品質を達成するため、発明者らのＦＢＡスキームは、固定歪み最小化に直接的に焦点を置き、その場合、ＧＯＰのすべての残りフレームについて、固定レベルの歪みが仮定され、アルゴリズムは、目標ビット予算を満たす最小の固定歪みを探索する。簡略化された符号化が、事前解析において参照および符号化モード不一致を効果的に補償する場合、異なるフレームのＲＤ関数は独立であると仮定することができ、それが全体的な最適化のための単純で容易な探索スキームをもたらすことに留意されたい。対照的に、従属ＲＤ関数を仮定した場合、既存のスキームは、動的プログラミングおよび反復降下探索（iterative descent search）を提案し、それは、高い計算複雑度を伴うか、または局所最適化ソリューションをもたらす。

発明者らの固定歪み探索アルゴリズム（３２５）は、勾配降下探索および２分探索の両方を含む。実際には、探索複雑度に影響を与える別の重要なファクタが、初期探索点になる。良好な開始点が使用された場合、探索ははるかに高速になり得る。発明者らのスキームでは、初期歪みレベルは、固定ＱＰ結果からの平均歪みであり、それは、最適な固定歪みレベルに対する近い近似を与える。探索プロセスは、達成レートと目標レートの間の相対誤差が一定の閾値を下回るか、または反復回数が一定の限界に達した場合に終了する。実験結果は、ほとんどの場合、探索は５〜６回以内の反復で終了することを示しており、これはかなり高速である。探索アルゴリズムが以下で説明される。本明細書では、簡潔にするため、通常の２分探索についての詳細は省略される。また、Ｒ_Targetは、ＧＯＰ内のすべての残りフレームについての、係数符号化の総ビット予算を表し、オーバーヘッドビットはすでに排除されていることに留意されたい。これは単純に、ＱＰは、係数符号化で消費されるビットにだけ影響し、オーバーヘッドビットには影響しないからである。

固定歪みベースＦＢＡアルゴリズム：
１．固定ＱＰ（ステップ３２５）：

ここで、Ｋは、ＧＯＰ内の残りの未符号化フレームの数を表し、Ｒ_iは、Ｃがないことを除いて、（２）におけるように計算される。高速２分探索が、最適ＱＰを探索するために使用される。

２．初期化（ステップ３３０）：

ここで、Ｄ_iは、（４）におけるように計算される。

３．Ｄ⁽ⁿ⁾を与え、各未符号化フレームｉについて、２分探索を使用して、ＱＰ^* _iによって表される最良のＱＰを見出す。次に、これらのＱＰを使用して、対応するＲ_i（ＱＰ^* _i）を見出す。したがって、

４．ΔＲ⁽ⁿ⁾＝（Ｒ⁽ⁿ⁾−Ｒ_Target）／Ｒ_Target ΔＲ⁽ⁿ⁾が閾値（発明者らの実施においては３％）より小さい場合、７に進む。

５．ｎ＝０の場合、またはｎ＞０かつΔＲ⁽ⁿ⁾・ΔＲ^(n-1)＞０の場合、探索はまだ最適なＤを通り過ぎていない。勾配降下探索を使用し、Ｄ⁽ⁿ⁺¹⁾＝Ｄ⁽ⁿ⁾・（１＋η・ΔＲ⁽ⁿ⁾）を用いて更新する（発明者らの実施においては、η＝１）。それ以外の場合、探索はすでに最適を通り過ぎている。２分探索を使用し、

を用いて更新する。

６．ｎが限界（発明者らの実施においては１０）に達した場合、７に進む。それ以外の場合、ｎ＝ｎ＋１とし、ステップ３に進む。

７．探索が終了し、

が、現フレームのためのビットの総数である。ここで、Ａは、フレームサイズを表す。［ポイント３〜７は、ステップ３３５に相当する］。

実施においてアルゴリズムをスムーズに動作させ続けるため、特別な処理を求める極端な状況を識別することが常に必要である。図３に示されるように、ＦＢＡの開始において、係数符号化のための残りのビット予算が十分かどうかをチェックする（ステップ３１５）。総予算に対する係数符号化予算の比が一定の閾値（発明者らの実施においては０．１５）を下回る場合、予算は不十分であると見なされる。この場合、最適化ＦＢＡは必要でなく、何らかの単純なその場限りの（ad hoc）ビット割り当てスキームの方がより適切である（ステップ３２０）。具体的には、符号化のためのビットが尽きた場合、または所望の全体的ビットレートを満たすにはあまりにも少ない場合、ピクチャヘッダ符号化のために、より多くのビットが割り当てられる。残りのビットが依然としてピクチャヘッダビットよりも多い場合、その余剰ビットは、すべての残りのフレームに均等に割り当てられる。

関連するＲＤモデルパラメータ（すなわち、（２）におけるθおよびＣ、（４）におけるα）をいかに効率的に更新するかが、最終的なレート制御性能に決定的に影響し得る、別の重要な問題である。事前解析および事前プロセスは、異なるモデリング性能をもたらすので、それらのモデルパラメータは、別々に計算される。発明者らのスキームでは、発明者らは、一般的なスライディングウィンドウ手法を採用し、その手法では、現在のパラメータは、一定のサイズのウィンドウ内の過去の符号化結果から更新される。より大きなウィンドウサイズは、より良好な安定性をもたらすが、同様により悪化した適応性ももたらす。（ステップ１４０からの）更新された事前解析モデルパラメータは、現フレームを除くすべての残りの未符号化フレームに適用されるので、安定性は、事前プロセスにおけるよりも重要である。したがって、発明者らのソリューションでは、最新のフレーム符号化結果から導出されたパラメータを単純に用いて（ステップ１５０における参照フレームの保存）、現フレームパラメータを更新するが、事前解析については、実際にスライディングウィンドウ更新を使用し、Ｐフレームパラメータ更新のためのウィンドウサイズは６であり、Ｉフレーム更新のためのウィンドウサイズは３である。Ｉフレームパラメータ更新のウィンドウサイズがより短い理由は、実施において、Ｉフレームは、ＧＯＰの第１フレームであるか、またはシーン変化フレームであるからである。したがって、Ｐフレーム用のものと同じウィンドウサイズを使用した場合、ウィンドウは、実際にははるかに長い時間距離にわたり、したがって、十分な適応性をもたらさないことがある。

さらに説明されるように、ＧＯＰ内の符号化される各フレームについて、それが符号化された後（ステップ１５５の後）、そのようなフレームを参照フレームとして使用することに関して、ρ−ＱＰおよびＤ’−ＱＰがフレームに関連付けられ（ステップ１１５、１２０、１２５、１３５、１４０）、そのような符号化されたフレームは、ＧＯＰ内の次のフレームが事前処理および符号化される場合に（ステップ１１５、１２０、１２５、１３５、１４０）、再構成される（ステップ１５を参照）。

効果的なパラメータ更新のための別の重要な測定は、更新計算からそれらの通常と異なるフレームの符号化結果を排除することである（ステップ１３５）。実際には、ビデオ信号は、（特に今日の映画トレーラにおける）白一色のフレーム、およびスコアボードや株式情報を表示するニュースにおけるようなまったく動きのないフレームなど、様々なタイプの通常と異なるフレームを含むことがあり、それらの符号化は、極めて少量のビットしか消費しないことが可能である。これらのフレームの特性は、他の典型的なビデオフレームに一般化できないので、それらの符号化も、パラメータ更新に含められるべきではない。発明者らのスキームは、以下の条件、すなわち、（ｉ）総ビットに対する係数符号化ビットの比が１５％を下回る、（ｉｉ）フレームのすべての残差ＭＢの平均分散が０．１未満、（ｉｉｉ）すべてのＭＢに対する平均ＱＰが１０を下回る、（ｉｖ）ピクセル当たりの結果ビットが０．０１より小さい、のいずれか１つが満たされる場合、通常と異なるフレームとして符号化フレームを識別する。

符号化プロセス１００は、特定のＧＯＰのすべてのフレームが符号化されるまで、（１１０に示されるように）それ自体を繰り返し、その場合、符号化されたＧＯＰは、全体的必要ビットレート（ＣＢＲ）を満たす。ステップ１６０において、ステップ１５２において決定された

のすべての総和を合計することによって、ＱＰ_preAが計算される。次に、計算されたＱＰ_preAは、総合計

の平均として決定され、平均量子化レベルの結果は、それから減算される保護値(guard value)を有する（式５を参照）。

開示されたＦＢＡソリューションは、ローモーション、ミディアムモーション、およびハイモーション系列（ＣＩＦおよびＱＣＩＦ系列）を含む、様々なテストビデオ系列とともに、様々な関連符号化ビットレートで動作する。

本原理の上記および他の特徴および利点は、本明細書の教示に基づいて、当業者によって容易に確認できよう。本原理の教示は、ハードウェア、ソフトウェア、ファームウェア、専用プロセッサ、またはそれらの組合せといった様々な形態で実施できることを理解されたい。

最も好ましくは、本原理の教示は、ハードウェアとソフトウェアの組合せとして実施される。さらに、ソフトウェアは、プログラム記憶ユニット上で有形に実施されるアプリケーションプログラムとして実施されてよい。アプリケーションプログラムは、任意の適切なアーキテクチャを備えるマシンによって、アップロードされ、実行されてよい。好ましくは、マシンは、１つまたは複数の中央処理装置（「ＣＰＵ」）、ランダムアクセスメモリ（「ＲＡＭ」）、および入出力（「Ｉ／Ｏ」）インターフェースなどのハードウェアを有する、コンピュータプラットフォーム上で実施される。コンピュータプラットフォームは、オペレーティングシステムおよびマイクロ命令コードも含んでよい。本明細書で説明された様々なプロセスおよび関数は、ＣＰＵによって実行され得る、マイクロ命令コードの部分もしくはアプリケーションプログラムの部分、またはそれらの任意の組合せとすることができる。加えて、追加のデータ記憶ユニットおよび印刷ユニットなど、他の様々な周辺ユニットが、コンピュータプラットフォームに接続されてよい。

添付の図面に示される構成要素のシステムコンポーネントおよび方法のいくつかは、好ましくはソフトウェアで実施されるので、システムコンポーネントまたはプロセス機能ブロックの間の実際の接続は、本原理がプログラムされる方法に応じて異なり得ることをさらに理解されたい。本明細書で開示された教示を与えれば、当業者は、本原理の上記および類似の実施または構成を企図することができる。

説明的な実施形態が、添付の図面を参照しながら本明細書で説明されたが、本原理は、それらの実施形態そのままに限定されず、本原理の範囲または主旨から逸脱することなく、当業者によって、それらの実施形態に様々な変更および修正が施され得ることを理解されたい。そのような変更および修正のすべては、添付の特許請求の範囲において説明される本原理の範囲内に含まれることが意図されている。

Claims

目標ビットレートでビデオのグループオブピクチャを符号化するための方法であって、
符号化されるグループオブピクチャから少なくとも２つの未符号化フレームのためのパラメータを導出するステップと、
前記少なくとも２つのフレームから符号化されるフレームに関連するパラメータを更新するステップと、
前記フレームの符号化のために割り当てビットレートを確保するステップであって、前記割り当てビットレートは、前記更新されたパラメータと、前記少なくとも２つの未符号化フレームからの前記未符号化フレームに関連する前記導出されたパラメータとから決定され、前記フレームを符号化するために確保された前記割り当てビットレートは、前記目標ビットレートとは異なる、ステップと
を含むことを特徴とする方法。
前記フレームは、前記割り当てビットレートに関連する量子化レベルとは異なる量子化レベルで符号化されることを特徴とする請求項１に記載の方法。
前記符号化量子化レベルは、前記フレーム上でマクロブロックレベルのビット割り当て操作を実行するときに決定されることを特徴とする請求項２に記載の方法。
前記少なくとも２つの未符号化フレームからの第２のフレームを符号化するステップであって、前記符号化操作のために第２の割り当てビットレートが確保され、前記第２の割り当てビットレートは、前記符号化フレームに関連する前記割り当てビットレートとは異なるステップ
をさらに含むことを特徴とする請求項１に記載の方法。
前記フレームのために割り当てられる前記ビットレートは、ρ領域フレームレベルのビット割り当て操作を使用することによって決定されることを特徴とする請求項１に記載の方法。
前記フレームビットレート割り当ては、各フレームが同じ歪み係数を有することを仮定して決定されることを特徴とする請求項１に記載の方法。
前記グループオブピクチャに関連する前記フレームのすべては、そのようなフレームがグループオブピクチャの前記目標ビットレートを満たして符号化される場合に、ビットレートが各フレームに割り当てられるように解析されることを特徴とする請求項６に記載の方法。
前記符号化グループオブピクチャおよび第２の符号化グループオブピクチャは、同じ目標ビットを有することを特徴とする請求項１に記載の方法。