JP2010011075A

JP2010011075A - 動画像符号化及び動画像復号化の方法及び装置

Info

Publication number: JP2010011075A
Application number: JP2008167884A
Authority: JP
Inventors: Akiyuki Tanizawa; 昭行谷沢; Takeshi Nakajo; 健中條
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-06-26
Filing date: 2008-06-26
Publication date: 2010-01-14

Abstract

【課題】動画像から背景領域と動領域を分離し、分離した動領域に対して動き補償予測処理を行う動画像符号化方法を提供する。
【解決手段】各参照画像の信号毎に動領域と背景領域とを示す二値の動領域分離マスクを生成し、２つ以上の前記参照画像の信号の比較或いは前記参照画像の信号毎の二値の前記動領域分離マスクの値により、1つの背景画像の信号を生成或いは更新し、前記動領域分離マスクを用いて、前記動領域に対応する、予測対象画像の第１部分に対して動き補償処理を行い、前記背景領域に対応する、前記予測対象画像の第2部分には前記背景画像の信号を補間した信号を補填することによって予測画像信号を生成する。
【選択図】図３

Description

本発明は、動画像から背景領域と動領域を分離し、分離した動領域に対して動き補償予測処理を行う動画像符号化及び動画像復号化の方法及び装置に関する。

近年、大幅に符号化効率を向上させた動画像符号化方法がITU-TとISO/IECとの共同で、ITU-T Rec. H. 264及びISO/IEC 14496-10（以下、H. 264という）として勧告されている。H.264では、予測処理・変換処理・エントロピー符号化処理が矩形ブロック単位（16x16,8x8等）で行われる。このため、H. 264では矩形ブロックで表現出来ないオブジェクトを予測する際に、より小さな予測ブロック形状(４×４等)を選択することで予測効率を高めている。このようなオブジェクトを効果的に予測するために、矩形ブロックに複数の予測パターンを用意する方法や、ブロックを任意の線分で分割し、分割した形状毎に動き補償を適応する方法などが提案されている。

背景画像と前景画像を分離する予測方法として、2枚の参照画像に挟まれた符号化スライス（B-slice）に着目して、前景・後景を分離し、別々に動き補償する手法が提案されている［特許文献1］。また、既に符号化が完了した複数の参照画像間の差分から、それぞれの参照画像に対応する背景画像マスクと背景参照画像を作成し、動き補償予測の際に合成する手法が提案されている［非特許文献1］。

特許文献1の方法では、前景・後景に対応した動きベクトル情報やブロック分割情報を符号化する必要があるため、低ビットレート時に対して符号化効率が低下する問題がある。また、エンコーダでは、最適な予測モードを選択するために、繰り返し符号化する必要があり演算量が増大する。

非特許文献１の方法では、画像間の絶対差分値を基準として画素毎に領域を分離するため、符号化する映像に含まれるノイズや、高圧縮に符号化する際などに発生する量子化誤差などの影響によって、オブジェクトと背景領域との分離が困難となり、予測効率が低下する場合がある。また、参照画像毎に背景画像マスクと背景参照画像メモリを生成する必要があり、デコーダのメモリが増大すると言う問題がある。
特開２００２−３５９８５４号公報 R. Ding, F. Wang, Q. Dai, W. Xu and D. Zhu, "Composite-Block Model And Joint-Prediction Algorithm For Inter-frame Video Coding," ICASSP-2006 May 2006

本発明の目的は、復号化済みの複数の参照画像から、それぞれの参照画像信号毎に対応する二値の動領域分離マスクとただ１つの背景画像信号を生成し、動領域分離マスクから動領域と判定された領域に対して動き補償予測を実施し、背景領域と判定された領域に対して、背景画像信号を補完した値を補填することによって、過度のブロック細分化による符号量の増加を防ぎ、予測効率を向上させる。

本発明の一態様は、入力画像信号を複数の画素ブロックに分割し、参照画像信号を用いて各画素ブロックの予測処理を行い，前記入力画像信号と予測画像信号との差分信号を符号化する動画像符号化方法において、各参照画像の信号毎に動領域と背景領域とを示す二値の動領域分離マスクを生成するマスク生成ステップと、２つ以上の前記参照画像の信号の比較或いは前記参照画像の信号毎の二値の前記動領域分離マスクの値により、1つの背景画像の信号を生成或いは更新する背景画像生成／更新ステップと、前記動領域分離マスクを用いて、（１）前記動領域に対応する、予測対象画像の第１部分に対して動き補償処理を行い、（２）前記背景領域に対応する、前記予測対象画像の第2部分には前記背景画像の信号を補間した信号を補填する、ことによって予測画像信号を生成する予測画像生成ステップと、を有するように構成される動画像符号化方法を提供する。

本発明の手法を用いることで、矩形ブロックに適さない動オブジェクトを予測するために、過度のブロック分割が施されて、ブロック分割情報が増大することを防ぐ。つまり、付加的な情報を増加させずに、ブロック内の動領域と背景領域を分離し、それぞれに最適な予測方法を適用することによって、符号化効率を向上させると共に主観画質も向上するという効果を奏する。

以下、図面を参照して本発明の第１〜第６の実施形態を説明する。

＜動画像符号化装置＞
本発明に従った動領域分離予測符号化を実現するための動画像符号化装置１００の構成は図１に示されている。動画像符号化装置１００の予測部１０６の詳細なブロック図は図２に示されている。動領域分離予測符号化方法を実施する動領域分離予測符号化に関連するインター予測部のブロック図は図３に示されている。まず、動画像符号化に関する動領域分離予測符号化方法について図１、図２、図３を参照しながら実施形態について説明する。

（第１の実施形態）
図１を参照して、第1の実施形態に従った動画像符号化装置を説明する。この画像符号化装置は、入力画像信号を構成する各々のフレームを複数の画素ブロックに分割し、これら分割した画素ブロックに対して符号化処理を行って圧縮符号化し、符号列を出力するよう構成されている。具体的には、この画像符号化装置１００は入力画像信号１１０と予測画像信号１１７との差分を計算し、予測誤差信号１１１を出力する減算値１０１と、予測誤差信号１１１を変換及び量子化し、変換係数１１２を出力する変換・量子化部１０２と、変換係数１１２を逆量子化し、逆変換して復元予測誤差信号１１３を生成する逆量子化・逆変換部１０３とを含む。更に、画像符号化装置１００は復元予測誤差信号１１３と予測画像信号１１７とを加算して復号画像信号１１４を生成する加算器１０４と、復号画像信号１１４を参照画像信号として記憶する参照画像メモリ１０５と、参照画像信号１１６と入力画像信号１１０とを用いて予測画像信号１１７を生成する予測部１０６を備えている。更に、動画像符号化装置１００は変換係数１１２を符号化列に符号化し、符号列を出力バッファ１０９に出力する符号列符号化部１０８を備えている。この動画像符号化装置１００は符号化制御部１０７によって制御される。

上記構成の動画像符号化装置では、動画像または静止画像の入力画像信号１１０が小画素ブロック単位、例えばマクロブロック単位に分割され、動画像符号化装置１００に入力される。ここで入力画像信号１１０とは、フレーム及びフィールドの両方を含む１つの符号化の処理単位（ピクチャ）を意味している。また、ここでは、マクロブロックを符号化処理の基本的な処理ブロックサイズとする。マクロブロックは、典型的に例えば図４Ａに示すような１６×１６画素ブロックであるが、３２×３２画素ブロック単位であっても８×８画素ブロック単位であってもよく、またマクロブロックの形状は正方格子である必要は必ずしもない。以下、入力画像信号１１０の符号化対象マクロブロックを単に対象ブロックという。本実施形態では、説明を簡単にするために図４Ａに示されているように左上から右下に向かって符号化処理がなされていくものとする。

動画像符号化装置１００は、ブロックサイズや予測画像信号１１７の生成方法の異なる複数の予測モードが用意されている。予測画像信号１１７の生成方法は、具体的には大きく分けて符号化対象のフレーム内（フィールド内）だけで予測画像を生成するイントラ予測（フレーム内予測）と、時間的に異なる複数の参照フレーム（参照フィールド）を用いて予測を行うインター予測（フレーム間予測）がある。

次に、動画像符号化装置１００による符号化の流れを説明する。まず、入力画像信号１１０が、最初に減算器１０１へと入力される。減算器１０１には、後述する予測部１０６から出力された各々の予測モードに応じた予測画像信号１１７が更に入力される。減算器１０１は、入力画像信号１１０から予測画像信号１１７を減算した予測誤差信号１１１を算出する。減算器１０１で生成され、出力された予測誤差信号１１１は変換・量子化部１０２へと入力される。変換・量子化部１０２では、予測誤差信号１１１に対して例えば離散コサイン変換（ＤＣＴ）のような直交変換が施されることにより、変換係数が生成される。

変換・量子化部１０２は、符号化制御部１０７によって与えられる量子化パラメータ、量子化マトリクス等に代表される量子化情報に従って変換係数を量子化する。量子化後の変換係数１１２は変換・量子化部１０２から出力され、符号列符号化部１０８へと入力されるとともに、逆量子化・逆変換部１０３へも出力される。ここで、変換・量子化部１０２における変換には、H.264で用いられているような離散コサイン変換について説明したが、離散サイン変換、ウェーブレット変換や独立成分解析などの手法を用いてもよい。

符号列符号化部１０８では、量子化後の変換係数１１２と共に、符号化制御部１０７から出力された予測情報１１９などを含んだ、対象ブロックを符号化したときに用いた様々な符号化パラメータに対してエントロピー符号化、例えばハフマン符号化や算術符号化などが行われ、符号化データが生成される。ここで符号化パラメータとは、予測情報１１９はもとより、変換係数に関する情報、量子化に関する情報、などの復号の際に必要になるあらゆるパラメータを指す。

符号列符号化部１０８により生成された符号化データ１１８は動画像符号化装置１００から出力され、多重化器（図示せず）によって復号に必要なパラメータと多重化され、出力バッファ１０９に一旦蓄積される。出力バッファ１０９の符号化データ１１８は、符号化制御部１０７が管理する出力タイミングに従って動画像符号化装置１００外へ出力される。符号化データ１１８は、図示しない蓄積系（蓄積メディア）または伝送系（通信回線）へ送出される。

一方、変換・量子化部１０２から出力された量子化後の変換係数１１２は、逆量子化・逆変換部１０３へと入力される。逆量子化・逆変換部１０３では、変換係数１１２は最初に逆量子化処理が行われる。ここでは、変換・量子化部１０２で使用されたものと同様の量子化パラメータ、量子化マトリクス等に代表される量子化情報が、符号化制御部１０７からロードされて変換係数１１２は逆量子化処理が行われる。

逆量子化後の変換係数は、逆離散コサイン変換（ＩＤＣＴ）のような逆直交変換が施されることによって、復号後の予測誤差信号１１３が再生される。復号予測誤差信号１１３は、加算器１０４に入力される。加算器１０４では、復号予測誤差信号１１３と予測部１０６から出力された予測画像信号１１７とが加算されることにより、復号画像信号１１４（局所復号画像信号）が生成される。復号画像信号１１４は、参照画像メモリ１０５に参照画像信号１１６として蓄積される。参照画像メモリ１０５に蓄積された参照画像信号１１６は、予測部１０６に出力され予測の際などに参照される。予測部１０６から出力された動領域分離マスク１１５は参照画像メモリ１０５に入力され、同時刻の復号画像信号１１４とともに参照画像メモリ１０５内に蓄積される。以後、参照画像信号１１６とは、同一時刻に符号化又は局所復号化処理された復号画像信号１１４と動領域分離マスク１１５のセットを指す。

予測部１０６では、参照画像メモリ１０５に蓄積された参照画像信号１１６の画素（復号化済み参照画素と生成済みの動領域分離マスクの画素）を利用して、インター予測またはイントラ予測が行われ、対象ブロックに対して選択可能な予測画像信号１１７が生成される。ただし、H. 264のイントラ予測、例えば図４Ｃに示される４×４画素ブロックに対応するイントラ予測または図４Ｄに示される８×８画素ブロックに対するイントラ予測のように、対象ブロック内で局部復号信号を作成しないと次の予測ができないような予測モードに関しては、予測部１０６の内部で変換／量子化及び逆量子化／逆変換或いは、それぞれ対応する画素ブロック毎の復号化処理などを行ってもよい。

図２に予測部１０６のブロック図を示す。予測部１０６は、イントラ予測部２０１、インター予測部２０２、動きベクトル推定部２０３、モード判定スイッチ２０４、モード判定部２０５を備えている。予測部１０６に参照画像信号１１６が入力されると、イントラ予測部２０１とインター予測部２０２は、画素ブロックにおける利用可能な予測モードの予測画像信号１１７を生成する。それぞれの予測方法については後述する。イントラ予測部２０１で生成された予測画像信号とインター予測部２０２で生成された予測画像信号がモード判定スイッチ２０４へと出力される。モード判定スイッチ２０４は、入力されてきた予測画像信号のどちらを利用するかを切り替える機能を有する。スイッチを切り替える情報は、モード判定部２０５から提供される予測情報２０６に基づいている。モード判定部２０５の動作については後述する。

イントラ予測部２０１における予測モードの例として、H.264のイントラ予測について説明する。H.264のイントラ予測では、４×４画素イントラ予測（図４Ｃ参照）、８×８画素イントラ予測（図４Ｄ参照）、１６ｘ１６画素イントラ予測（図４Ｂ参照）が規定されている。このイントラ予測では、参照画像メモリ１０５に保存されている参照画像信号１１６から、補間画素を作成し、空間方向にコピーすることによって予測値を生成する。

次に、図３を参照してインター予測部２０２の構成及び動作を説明する。図３によると、インター予測部２０２は参照画像信号１１６が入力される動き補償部３０１及び動領域分離予測部３０２並びに背景画像生成部３０３を備えている。動領域分離予測部３０２には、動領域分離予測するために動領域分離マスク１１５，参照画像信号１１６，動きベクトル２０７及び背景画像信号３０６が入力される。動き補償部３０１及び動領域分離予測部３０２は予測分離スイッチ３０５によって切換えられる。予測分離スイッチ３０５の切換えは予測切換部３０４によって行われる。

上記構成のインター予測部２０２では、図２の動きベクトル推定部２０３で算出された予測対象ブロックの動きベクトル２０７と参照画像信号１１６を元に、補間処理を行って予測画像信号１１７を生成する。図５にインター予測の動き補償予測の一例を示す。インター予測では、参照画像メモリ１０５に蓄積されている複数の参照画像信号１１６を用いて補間処理を行い、作成した補間画像と原画像信号との同位置の画素ブロックからのズレ量を元に予測画像信号１１７が生成される。補間処理としては、１／２画素精度の補間処理や、１／４画素精度の補間処理などが用いられ、参照画像信号１１６に対してフィルタリング処理を行うことによって、補間画素の値を生成する。例えば輝度信号に対して１／４画素精度までの補間処理が可能なＨ．２６４では、ズレ量は整数画素精度の４倍で表現される。このズレ量を動きベクトルと呼ぶ。

インター予測では、複数の予測ブロックの中から現在の予測対象ブロックに適したブロックサイズを選択することが可能である。図６Ａにマクロブロック単位の動き補償ブロックのサイズを、図６Ｂにサブブロック（８×８画素ブロック以下）単位の動き補償ブロックのサイズを示す。これらの予測ブロックのサイズ毎に、動きベクトルを求めることが可能であるため、入力画像信号１１０の局所的な性質に従って、最適な予測ブロックの形状と動きベクトルを利用することが可能である。また、どの参照画像信号に対して動きベクトルを計算したかの情報はRef_idxとして最小で８×８画素ブロック毎に変更することが可能である。

次に、動きベクトル推定部２０３について説明する。動きベクトル推定部２０３は、入力画像信号１１０と参照画像信号１１６を用いて、予測対象ブロックに適した動きベクトル２０７を算出する機能を有する。動きベクトル２０７の算出では、入力画像信号１１０の予測対象ブロックと、参照画像信号１１６の補間画像との間でブロックマッチングを行う。マッチングの評価基準としては、入力画像信号１１０とマッチング後の補間画像との差分を画素毎に累積した値を用いる。最適な動きベクトル２０７の決定では、前述した方法の他に予測された画像と原画像との差を変換した値を用いても良いし、動きベクトルの大きさを加味したり、動きベクトルの符号量などを加味したりして、判定してもよい良い。また後述する式（１）（２）などを利用しても良い。また、マッチングのやり方は、符号化装置の外部から提供される探索範囲情報に基づいてマッチングの範囲内を全探索しても良いし、画素精度毎に階層的に実施しても良い。

このようにして複数の参照画像信号（時間的に異なる局部復号画像信号を指す）に対して算出された動きベクトル２０７は、インター予測部２０２へと入力され、予測画像信号１１７の生成に利用される。算出された動きベクトル２０７は、対応する画素ブロック形状などの予測に係わる情報とともに予測情報１１９として符号化制御部１０７に保持され、符号列符号化部１０８へ予測情報１１９として渡されて、エントロピー符号化された後、符号化データに多重化される。

次に、モード判定部２０５について概要を説明する。モード判定部２０５は、現在符号化しているスライスの情報に応じて、スイッチ切替情報２０６をモード判定スイッチ２０４へ出力する。スイッチ切替情報２０６には、イントラ予測部２０１の出力端とインター予測部２０２の出力端のどちらと、スイッチを繋ぐかの情報が記述されている。

次に、モード判定部２０５の機能を説明する。現在符号化しているスライスがイントラ符号化スライスである場合、モード判定部２０５は、モード判定スイッチ２０４の出力端をイントラ予測部２０１に接続する。一方、現在符号化しているスライスがインター符号化スライスである場合、モード判定部２０５はモード判定スイッチ２０４をイントラ予測部２０１の出力端に繋ぐか、インター予測部２０２の出力端へ繋ぐかを判定する。

より具体的に説明すると、上記の場合、モード判定部２０５では次式（１）のようなコストを用いたモード判定を行う。予測モードを選択した際に必要となる予測情報１１９に関する符号量（例えば動きベクトルの符号量やブロック形状の符号量など）をＯＨ、入力画像信号１１０と予測画像信号１１７の差分絶対和（予測誤差信号１１１の絶対累積和を意味する）をＳＡＤとすると、以下のモード判定式を用いる。

ここでＫはコスト、λは定数をそれぞれ表す。λは量子化スケールや量子化パラメータの値に基づいて決められるラグランジュ未定乗数である。このようにして得られたコストＫを基に、モード判定が行われる。すなわち、コストＫが最も小さい値を与えるモードが最適な予測モードとして選択される。

モード判定部２０５においては、式（１）に代えて（ａ）予測情報１１９のみ、（ｂ）ＳＡＤのみ、を用いてモード判定を行ってもよいし、これら（ａ）予測情報１１９のみ、（ｂ）ＳＡＤのみにアダマール変換を施した値、またはそれに近似した値を利用してもよい。さらに、モード判定部２０５において入力画像信号１１０のアクテビティ（信号値の分散）を用いてコストを作成してもよいし、量子化スケールまたは量子化パラメータを利用してコスト関数を作成してもよい。

さらに別の例として、仮符号化ユニットを用意し、仮符号化ユニットによりある予測モードで生成された予測誤差信号１１１を実際に符号化した場合の符号量と、入力画像信号１１０と復号画像信号１１４との間の二乗誤差を用いてモード判定を行ってもよい。この場合のモード判定式は、以下のようになる。

ここで、Ｊは符号化コスト、Ｄは入力画像信号１１０と復号画像信号１１４との間の二乗誤差を表す符号化歪みである。一方、Ｒは仮符号化によって見積もられた符号量を表している。

式（２）の符号化コストＪを用いると、予測モード毎に仮符号化と局部復号処理が必要となるため、回路規模または演算量は増大する。反面、より正確な符号量と符号化歪みを用いるため、高い符号化効率を維持することができる。式（２）に代えてＲのみ、またはＤのみを用いてコストを算出してもよいし、ＲまたはＤを近似した値を用いてコスト関数を作成してもよい。

以上のようにして、イントラ予測部２０１で生成された予測画像信号を選ぶか、インター予測部２０２で生成された予測画像信号を選ぶか、を判定し、モード判定スイッチ２０４の出力端を切り替える。ここで選択された予測モードの予測画像信号１１７が予測部１０６から出力されて、減算器１０１へ入力されるとともに、加算器１０４へ出力される。

次に、インター予測部２０２についてより詳細に説明する。図３にインター予測部２０２のブロック図が示されている。インター予測部２０２は、上述したように動き補償部３０１、動領域分離予測部３０２、背景画像生成部３０３、予測切替部３０４、予測分離スイッチ３０５を備えている。

参照画像メモリ１０５から出力された参照画像信号１１６は、予測部１０６へと入力され、インター予測部２０２へと入力される。同時に動きベクトル推定部２０３で推定された動きベクトル２０７が入力される。動き補償部３０１では、まず動きベクトル２０７の情報に従って、予測画素ブロックの位置から、次式（３）を用いて動きベクトル２０７で参照されている位置を割り出す。ここでは前述の通り、Ｈ．２６４の１／４画素精度の補間を例に挙げて説明する。つまり、動きベクトルの各成分が４の倍数である場合は、整数画素位置を指していることを意味する。それ以外の場合は、分数精度の補間位置に対応する予測位置であることがわかる。

ここで、(x,y)は予測対象ブロックの先頭位置を表す垂直、水平方向のインデックスであり、(x_pos,y_pos)は参照画像信号の対応する予測位置を表している。(mv_x,mv_y)は１／４画素精度を持つ動きベクトルを示している。次に割り出した画素位置に対して、参照画像信号１１６の対応する画素位置の補填又は補間処理によって予測画素を生成する。

図７にＨ．２６４の予測画素生成の例を示す。図中大文字で示されるアルファベット（斜線で表示された正方形）は整数位置の画素を示しており、網掛けで表示されている正方形は１／２画素位置の補間画素を示している。また、白塗りで表示された正方形は１／４画素位置に対応する補間画素を示している。例えば、図中でアルファベットｂ、ｈの位置に対応する１／２画素の補間処理は次式（４）で算出される。

また、図中でアルファベットａ、ｄの位置に対応する１／４画素の補間処理は次式（５）で算出される。

このように１／２画素位置の補間画素は、６タップＦＩＲフィルタ（タップ係数：(1，−５，２０，２０、−５，１)／３２）を用いて生成し、１／４画素位置の補間画素は、２タップの平均値フィルタ（タップ係数：（１／２，１／２））を用いて算出される。４つの整数画素位置の中間に存在するアルファベットｊに対応する１／２画素の補間処理は、垂直方向６タップと水平方向６タップの両方向を行うことによって生成される。説明した以外の画素位置も同様のルールで補間値が生成できる。以上が、動き補償部３０１おける予測画像信号生成の例である。

次に、背景画像生成部３０３について説明する。背景画像生成部３０３は、入力された参照画像信号１１６を用いて、背景画像信号３０６及び動領域分離マスク１１５を生成する機能と、生成した背景画像信号３０６を保持するメモリとしての機能を有する。まず、動領域分離マスク１１５の生成について説明する。動領域分離マスク１１５は、参照画像信号１１６で提供された各々の時刻で復号された復号画像信号１１４に対してそれぞれ１つずつ存在する。動領域分離マスク１１５は、同時刻に復号された復号画像信号１１４の各画素に対して、それ以前に復号された復号画像信号１１４との時間的な輝度変化（差分値）が予め定めた規定値ＴＨよりも小さい場合に背景画素と認定し、輝度変化が規定値ＴＨを超える場合を動画素と判定する２値のマスクマップである。

利用可能な参照画像信号１１６が複数ある場合は、時間方向に同位置の全ての画素に対して差分値を算出して、後述する代表値を確定し、確定した差分値に対して規定値を用いて背景画素であるか、動画素であるかを判定する。

ここで、ＬＤは局所復号画像信号を表している。ｓは時間方向の変位を表すインデックスであり、s=0は予測対象画像そのものを指している。例えば参照画像信号のインデックスに対応する。図８に複数の参照画像信号に対して差分値を求める際の参照画素と対象画素の対応関係を示す。ｗは時間的な距離に応じて重み付けを行う変数である。例えば時間的に近い復号画像信号に対して大きな重みを与え、時間的に距離の遠い復号画像信号に対しては小さな重みを与えることによって、時間相関を考慮することが可能となる。図９に予測対象画素ブロックからの時間的距離に応じて重みｗを変える例を示す。

尚、上記では単純に差分値のみによって画素の領域判定を行う例を示したが、代表値を決める指標として、利用可能な複数の復号画像信号間（時間方向）の画素の差分値の絶対和、差分値の最大値、差分値の平均値、差分値のメディアン値、差分値の分散を用いて判定しても良いし、復号画像信号の領域判定を行う画素に隣接する画素（空間方向）の差分値の絶対和、差分値の最大値、差分値の平均値、差分値のメディアン値、差分値の分散、などの指標を用いて判定しても良い。

また、一度生成した動領域分離マスクに対して補正を行っても良い。例えば、生成した動領域分離マスクの補正対象画素において、隣接位置に対応する上下左右の４点、或いは対角方向も含めた９点のマスクの値を用いて、孤立点となるような領域を補正したり、予測ブロック形状に合わせてブロック境界のマスクの値を修正したりしても良い。この場合の例を次式（８）で示す。

ここで(i,j)は、対象画素に隣接する画素のインデックスを示しており、(i,j)=(0,0)は補正対象画素を示している。図１０に対象画素と隣接画素の関係を示す。丸印の密度が高くなるほど対象画素との距離が離れることを意味している。また、ｖは隣接画素の位置関係に応じて重み付けを行う変数である。例えば、空間的距離が近い(i,j)=(0,1)、(1,0)、(0,-1)、(-1,0)に対して重みを大きくし、空間的距離が大きい(i,j)=(1,1)、(1,-1)、(-1,1)、(-1,-１)などの画素の重みを小さくする、などの空間的相関を考慮するために利用される。

図１１に空間方向の市街地距離に応じて、重みｖを変更する例を示す。算出されたDiffが予め定めた規定値ＴＶより大きい場合は、隣接画素の動領域分離マスクの値が異なっており、相関が低いと判定できることから、対象画素のマスクの値を変更する。一方、規定値ＴＶより小さい場合は、空間相関が高いために値を変更しない、などの処理を行う。このように空間方向に対して重みｖを適切に設定することによって、生成された動領域分離マスクを補正することができ、孤立点の除去、不連続点の連結、矩形ブロックへの領域拡大・縮小、エッジ修正、画素補填、画素マッチング等が可能となる。尚、本実施の形態では、市街地距離による重み変更例を示したが、距離の定義は市街地距離、マンハッタン距離などを含む、ミンコフスキー距離の中から１つを用いて計算することが可能である。

次に、背景画像信号３０６の生成について説明する。背景画像信号３０６とは、時間方向で輝度変化が少ない背景領域のみを集めた信号となっており、動領域分離マスク１１５と時間的に最近接の復号画像信号１１４に基づいて画素毎に導出される。前述した動領域分離マスク１１５から次式（９）を用いて背景画像信号３０６を生成する。

ここでＢＧは背景画像信号３０６を表しており、ＬＤは更新するフレームに対して時間的に最近接の復号画像信号１１４を表している。

上式の通り、当該時刻の背景画像信号３０６の更新時は、参照画像信号１１６の中の時間的に最近接の復号画像信号１１４と動領域分離マスク１１５を利用し、マスクの値が0（背景画素の場合）のみ、最近接の復号画像信号１１４と更新前の背景画像信号３０６の重み付き和で更新が行われる。重み付き和は例えばwt=1/2に設定することで平均値フィルタとなる。一方、マスクの値が１（動画素）の場合には、更新は行われない。尚、背景画像信号３０６の初期値は、予め定めた輝度値（例えば輝度信号であれば０や最大輝度値（8ビットでは２５６）、色差信号であれば中間輝度値（8ビットで１２８））で埋めておいても良いし、画面内予測だけで符号化されるようなI-sliceの輝度値を用いたりしても良い。背景画像信号３０６のリフレッシュは、入力画像信号においてシーンチェンジが行われるような場合や、ＩＤＲピクチャが挿入される場合に行われる。本実施の形態ではI-sliceのタイミングで必ず背景画像信号３０６のリフレッシュが行われる例を示している。以上のような過程で背景画像信号３０６が適切なタイミングで更新される。

尚、背景画像信号３０６は、背景画像生成部３０３の内部メモリに保持されており、更新された信号が動領域分離予測部３０２へと出力される。また、生成された動領域分離マスク１１５は、インター予測部２０２から出力され、予測部１０６を経て、同じ時刻の復号画像信号１１４とともに参照画像信号１０５として参照画像メモリ１０５へと保存される。

ここでは、時間的に最近接の復号画像信号を用いた例を説明したが、(1)ディスプレイの表示時間的に利用可能な最近接の参照画像の画素値を補填する方法、(2)符号化の実行時間的に利用可能な最近接の参照画像の画素値を補填する方法、(3)次に符号化される画像に対して時間的に利用可能な最近接の参照画像の画素値を補填する方法、(4)前記背景画像メモリに蓄積されている画素と前記表示時間的に利用可能な最近接の参照画像の画素の線形和で生成された画素を補填する方法、(5)前記背景画像メモリに蓄積されている画素と前記符号化時間的に利用可能な最近接の参照画像の画素の線形和で生成された画素を補填する方法、(6)前記背景画像メモリに蓄積されている画素と前記次に符号化される画像に時間的に利用可能な最近接の参照画像の画素の線形和で生成された画素を補填する方法、の中からいずれか1つの方法を利用してもよい。

次に、動領域分離予測部３０２について説明する。動領域分離予測部３０２は、動きベクトル推定部２０３から出力された動きベクトル２０７、参照画像メモリ１０５から出力された参照画像信号１１６、及び背景画像信号生成部３０３から出力された背景画像信号３０６が入力される。動領域分離予測部３０２は、入力された動領域分離マスク１１５を用いて、動領域に対して動き補償処理を、背景領域に対しては、背景画像信号の補填を行い、別々の予測方法で予測された信号を合成する機能を有する。尚、入力された動きベクトル２０７を用いて動領域分離マスク１１５にもマッチングを行う。つまり、動き補償部３０１の説明で述べた動きベクトルから補間位置の導出を動領域分離マスク１１５にも適用する。この場合、動領域分離マスクは整数画素精度のみなので、分数精度の動きベクトルの場合は、整数画素精度へのマッピングを行う。１／４画素精度の動き補償処理の場合の整数画素位置へのマッピングは次式（１０）で表される。

ここで、(mv_x,mv_y)はそれぞれ１／４画素精度の動きベクトルの水平成分、垂直成分を表しており、(imv_x,imv_y)はそれぞれ整数画素精度の動きベクトルの水平成分、垂直成分を表している。導出された整数精度の動きベクトルを用いて次式（１１）のようにして動領域分離予測が行われる。

ここでＰは動領域分離予測によって生成される予測画像信号を表している。ＭＣは、動き補償予測部３０１で行われる動き補償予測によって生成される予測画像信号であり、既に動き補償部３０１の説明で詳細を述べているため、ここでは説明を省略する。例えば図７で生成された補間画素ａ、ｂ、ｊなどの値や整数画素Ｇ、Ｈ、Ｍなどの値が予測画像信号ＭＣに入る。同時刻の復号画像信号１１４と動領域分離マスク１１５に対して動きベクトル２０７が適用され、動領域に対しては通常の動き補償予測を、背景領域に対しては背景画像信号３０６を補填することによって、動オブジェクトの形状によらずに予測精度を上げることが可能となる。図１２に、参照画像信号が時間方向に４枚利用可能な場合の、復号画像信号１１４と動領域分離マスク１１５の例と背景画像信号３０６の例を示す。このようにして作成された予測画像信号が動領域分離予測部３０２から出力されるとともに、この時利用したブロック形状、動きベクトルなどの予測情報１１９が、符号化制御部１０７に記録される。

次に、予測切替部３０４と予測分離スイッチ３０５について説明する。予測切替部３０４は、入力されてきた動領域分離マスク１１５の情報に基づいて、予測分離スイッチ３０５を制御するための予測切替情報３０７を出力する。予測分離スイッチ３０５は、予測切替情報３０７に従って、スイッチの出力端を動き補償部３０１側に接続するか、動領域分離予測部３０２側に接続するかを切り替える機能を有する。より具体的に説明すると、当該予測対象画素ブロック内に含まれる動領域分離マスクの比率を算出し、動領域が予め設定した規定値ＴＰより大きいか、小さいかによって予測切替情報３０７を更新する。例えば、予測対象とした８×８画素ブロック内に含まれる６４個のマスク値の内、４個の画素のみが０を、残り６０個の画素が１を取っている場合、対象とする画素ブロックは９割以上が動領域であるため、スイッチの出力端を動き補償部３０１へと接続する。このように、予測対象画素ブロック内の動領域分離マスクの比率を算出し、この比率の値の大きさによって、どちらの予測部と接続するかを動的に切り替えることができる。図１３に、ＴＰ＝９０％に設定した場合の切替の例を示している。このようにして、予測対象画素ブロックのインター予測の予測方法（動き補償予測と動領域分離予測）が切り替えられ、インター予測部２０２から予測画像信号１１７が出力される。

次に、図１５を用いてインター予測部２０２内の背景画像生成部３０３の処理フローを説明する。まず、背景画像生成部３０３で行われる動領域分離マスク１１５の生成と背景画像信号３０６の更新は、１枚のフレーム又はスライスの符号化処理或いは局所復号処理が完了した後、或いは次のフレーム又はスライスの符号化処理が行われる直前に行われる（S501）。まず、背景画像生成部３０３は、現在の符号化スライス（次に予測が行われる符号化スライス）のスライスの種類をチェックする。当該符号化スライスがイントラ符号化スライス（I-slice）である場合（S502の判定がYES）、背景画像信号３０６が初期化される（S503）。当該符号化スライスがI-slice以外の場合（S502の判定がNO）、参照画像信号１１６を用いて、動領域分離マスク１１５が生成される（S504）。更に参照画像信号１１６と生成された動領域分離マスク１１５などを用いて背景画像信号３０６の更新を行う（S505）。この背景画像信号３０６は、背景画像生成部３０３に存在する内部メモリに保持されている。生成した動領域分離マスク１１５が出力（S506）されるとともに、背景画像信号３０６が動領域分離予測部３０２へと出力される（S507）。次に、当該符号化スライスが最終符号化フレームかどうかの判定（S508）が行われ、かかる判定がＮＯの場合、当該符号化スライスが符号化されるのを待って、処理がS502へと戻る。一方かかる判定がYESの場合、処理を終了する（S509）。

次に図１６を用いて、上述した詳細機能を除いた、インター予測部２０２内の背景画像生成部３０３の全体の処理フローを説明する。動領域分離予測部３０２へ、動きベクトル２０７と参照画像信号１１６及び背景画像信号３０６が入力されると（S601）、入力ベクトル２０７を用いて参照画像信号１１６中の対応する復号画像信号１１４の予測位置を導出する（S602）。次に動きベクトル２０７を用いて整数精度の動きベクトルを導出し、動領域分離マスクの対応位置を導出する（S603）。また、動領域分離マスク１１５内の予測対象ブロック内に含まれる動画素の比率を算出する（S604）。算出された動画素の比率が予め設定した規定値ＴＰよりも大きいかどうかをチェックする（S605）。かかる判定がYESの場合、画素idxを0に初期化し（S613）、画素idxに対応する画素に対して動き補償予測処理を行い（S614）、画素idxをインクリメントする（S616）。インクリメント後の画素idxが予め定めた対象予測ブロックの最後の画素に対応する値であるかどうかを判定し（S616）、かかる判定がＮＯの場合は、インクリメントされた画素idxで再度画素idxに対応する画素に対して動き補償予測を行う（S614）。一方、かかる判定がＹＥＳの場合、予測画像信号１１７を出力（S617）して処理を終了する（S618）。

S605の判定がNOの場合、まず、画素idxを0に初期化する。画素idxに対して、動領域分離マスクの対応する位置の値をチェックし（S607）、当該画素のマスク値が動画素であった場合（S607がYES）、当該画素に対して動き補償予測処理を実施する（S612）。一方、当該画素のマスク値が背景画素であった場合（S607がNO）、背景画像信号の予測位置を導出し（S608）、当該予測位置の背景画像信号を補填する（S609）。次に、画素idxの値をインクリメントし（S610）、画素idxが予め定めた対象予測ブロックの最後の画素に対応する値であるかどうかを判定し（S611）、かかる判定がＮＯの場合は、インクリメントされた画素idxで再度動領域分離マスクの対応する位置の値をチェックする（S607）。かかる判定がＹＥＳの場合、予測画像信号１１７を出力（S617）して処理を終了する（S618）。フローチャートの各ステップの内、S604、S605は予測切替部３０４の有する機能であり、ステップS613-S616までは動き補償部３０１が有する機能である。また、ステップS602、S603及びS607−S611までが主に動領域分離予測部３０２が有する機能である。

次に、本動画像符号化装置１００におけるシンタクス構造について説明する。図２３に示すとおり、シンタクスは主に３つのパートからなり、ハイレベルシンタクス１６０１は、スライス以上の上位レイヤのシンタクス情報が詰め込まれている。スライスレベルシンタクス１６０２では、スライス毎に必要な情報が明記されており、マクロブロックレベルシンタクス１６０３では、マクロブロック毎に必要とされるデータが明記されている。

それぞれは、更に詳細なシンタクスで構成されており、ハイレベルシンタクス１６０１では、シーケンスパラメータセットシンタクス１６０４とピクチャパラメータセットシンタクス１６０５などのシーケンス、ピクチャレベルのシンタクスから構成されている。スライスレベルシンタクス１６０２では、スライスヘッダーシンタクス１６０５、スライスデータシンタクス１６０６などから成る。更に、マクロブロックレベルシンタクス１６０３は、マクロブロックレイヤーシンタクス１６０７、マクロブロックプレディクションシンタクス１６０８などから構成されている。

図２４にスライスヘッダーシンタクスの例を示す。図中に示されるslice_motion_region_separation_flagは、インター予測部２０２中の予測切替部３０４から出力される予測切替情報３０７に利用される。slice_motion_region_separation_flagが0である場合、予測切替部３０４は、スライスにおいて常に動き補償予測部３０１の出力端を出力するように予測切替情報３０７を設定して予測分離スイッチ３０５を切り替える。つまり、必ず動き補償予測が行われることを意味している。一方、slice_motion_region_separation_flagが１である場合、前述の通り、スライスにおいて背景画像生成部３０３から出力された動領域分離マスク１１５の信号に基づいて動き補償予測と動領域分離予測が動的に切り替わる。

図２５に符号化パラメータの例としてマクロブロックレイヤーシンタクスの例を示す。表中に示されるｍｂ＿ｔｙｐｅは、マクロブロックタイプ情報を示している。すなわち、現在のマクロブロックがイントラ符号化されているか、インター符号化されているか、或いはどのようなブロック形状で予測が行われているか、などの情報を含んでいる。表中に示されるｃｏｄｅｄ＿ｂｌｏｃｋ＿ｐａｔｔｅｒｎは、８×８画素ブロック毎に、変換係数が存在するかどうかを示している。例えばこの値が０である時、対象ブロックに変換係数が存在しないことを意味している。表中のｍｂ＿ｑｐ＿ｄｅｌｔａは、量子化パラメータに関する情報を示している。この情報は対象ブロックの１つ前に符号化されたブロックの量子化パラメータからの差分値を表している。表中のｉｎｔｒａ＿ｐｒｅｄ＿ｍｏｄｅは、イントラ予測の予測方法を示す予測モードを示している。表中のｒｅｆ＿ｉｄｘ＿ｌ０及びｒｅｆ＿ｉｄｘ＿ｌ１は、インター予測が選択されているときに、対象ブロックがどの参照画像を用いて予測されたか、を表す参照画像のインデックスを示している。表中のｍｖ＿ｌ０、ｍｖ＿ｌ１は動きベクトル情報を示している。表中のｔｒａｎｓｆｏｒｍ＿８ｘ８＿ｆｌａｇは、対象ブロックが８×８変換であるかどうかを示す変換情報を表している。

表中の行間には、本発明で規定していないシンタクス要素が挿入されることも可能であるし、それ以外の条件分岐に関する記述が含まれていても良い。或いは、シンタクステーブルを複数のテーブルに分割、統合することも可能である。また、必ずしも同一の用語を用いる必要は無く、利用する形態によって任意に変更しても良い。更に、当該マクロブロックレイヤーシンタクスに記述されている各々のシンタクスエレメントは、後述するマクロブロックデータシンタクスに明記されるように変更しても良い。

以上が、本発明に係わる動画像符号化装置１００の説明である。

（第１の実施形態：変更例１：切替情報のシグナリング）
本実施の形態では、インター予測部２０２内の予測方法として、動き補償部３０１と動領域分離予測部３０２の２つを予測切替部３０４によって動的に切り替える例を示したが、動き補償予測と動領域分離予測の切替を動的に行わない実施の形態も可能である。この場合、どちらの予測方法が利用されたかのインデックスを符号化する必要が生じる。このインデックスは、予測切替情報３０７に記述されており、選択された予測画像信号１１７に対するインデックスが予測切替情報３０７に記述されるとともに、この情報は符号化制御部１０７に保持される。予測方法を用いて生成された予測画像信号１１７が符号化されるのと同時に、符号化制御部１０７から予測情報１１９として、保持されていた予測切替情報３０７がロードされ、符号列符号化部１０８へと入力されるとともに符号化処理が行われる。

図１４にマクロブロック毎に利用した予測方法を示すインデックスを符号化する例を示す。９割以上の画素が動画素である場合は、動き補償予測が選択され、背景画素で占められているマクロブロックは動領域分離予測を行っている。更に、動画素と背景画素の比率が規定値THMAXからTHMINの間に含まれる場合は、どちらの予測を利用したかを示すインデックスを符号化する。

図２６に本実施の形態におけるマクロブロックレイヤーシンタクスの例を示す。図中に示されるmb_motion_region_separation_flagは、インター予測部２０２中の予測切替部３０４から出力される予測切替情報３０７に利用される。mb_motion_region_separation_flagが0である場合、予測切替部３０４は、マクロブロックにおいて常に動き補償予測部３０１の出力端を出力するように予測切替情報３０７を設定して予測分離スイッチ３０５を切り替える。つまり、必ず動き補償予測が行われることを意味している。一方、mb_motion_region_separation_flagが１である場合、予測切替部３０４は、当該マクロブロックにおいて常に動領域分離予測部３０２の出力端を出力するように予測切替情報３０７を設定して予測分離スイッチ３０５を切り替える。つまり、必ず動領域分離予測が行われることを意味している。SignalingFlagはmb_motion_region_separation_flagを符号化するかどうかを決定するための内部パラメータである。SignalingFlagが1の場合、動画素の比率が規定値THMAXからTHMINの間に含まれることを意味する。一方、SignalingFlagが0の場合、動画素の比率が規定値THMAXからTHMINの間に含まれないことを意味する。

（第１の実施形態：変更例２：予測画像信号の使いまわし）
本実施の形態では、動き補償部３０１と動領域分離予測部３０２をそれぞれ別々の予測方法として記述しているが、図１６のフローチャートでも示したとおり、動領域分離予測部３０２内で動き補償部３０１と同様の予測方法も用いている。このように同様の処理を複数回行うことによる演算量の増加を避けるため、図１７に示すように動き補償部３０１で算出した予測画像信号１１７を動領域分離予測部３０２へと入力する構造としても良い。或いは動き補償部３０１の機能を動領域分離予測部３０２と統合させても良い。

（第１の実施形態：変更例３：切替構造の削除）
本実施の形態では、動き補償部３０１と動領域分離予測部３０２をそれぞれ別々の予測方法として記述しているが、予測方法を動領域分離予測３０２に単一化して、予測切替部３０４を削除する構造としても良い。図１８に、動き補償部３０１、予測切替部３０４、予測分離スイッチ３０５を削除した実施例を示す。予測構造が簡略化するため、ハードウェア規模などの増大を防ぐことが可能となる。

（第２の実施形態：グローバルMC）
本実施の形態では、動画像符号化装置１００の構造は図２と同一であるため、説明を省略する。但し、予測部１０６の機能が異なっているため、予測７０１が設けられている。図１９に第２の実施形態における予測部７０１の構造を示す。尚、既に説明した機能と同様の機能を持つものに対しては同じインデックスを与えて、その説明を省略する。尚、図２のインター予測部２０２とは、機能の違いのために異なるインデックスとしてインター予測部８０１が設けられている。

予測部７０１では、インター予測部８０１に加えて、グローバルベクトル推定部８０２が備えられている。グローバルベクトル推定部８０２は、符号化フレーム毎、符号化スライス毎或いはマクロブロック毎に、カメラなどの撮像系の変化によって生じる画面全体の変化量を表すベクトル（グローバルＭＶ（動きベクトル）８０３）を算出する機能を有する。本実施の形態では、画面全体の動きを求めるための枠組みとして平行移動モデルについて説明するが、動きのモデルとしてアフィン変換を用いたモデルや、相似変換、射影変換などに基づいたモデルを用いても良い。平行移動モデルでは、撮影した映像のカメラのパン・チルトに対応することが出来るが、アフィン変換モデルなどを使うことにより、拡大・縮小などにも対応が可能である。また、グローバルＭＶの精度は整数画素精度の場合について説明を行うが、前述の通り分数精度への拡張も容易である。

グローバルベクトル推定部８０２の基本的なベクトル推定機能は、既に説明した動きベクトル推定部２０３と同様であるが、ブロックなどの領域毎に算出した局所的な動きベクトル（ローカル動きベクトル）を統合して、グローバルＭＶ８０３を算出する機能が追加されている。例えば４×４画素ブロックごとの画面内の動きベクトルを算出し、算出した動きベクトルのヒストグラムを作成する。局所的なブロックで算出した局所動きベクトルでは、画面内の移動オブジェクトの影響により、カメラの動きに追随できない場合がある。そこで、グローバルな動きベクトルを求めるため、この中でもっとも出現頻度が高い動きベクトルをグローバル動きベクトル７０２に設定する。グローバルベクトル推定部８０２で算出されたグローバルＭＶ８０３は、インター予測部８０１へと入力される。

次に、インター予測部８０１について説明する。図２０はインター予測部８０１のブロック図である。第１の実施形態の背景画像生成部３０３及び動領域分離予測部３０２に、グローバルＭＶ８０３が入力されている以外は図１と同一であるが、背景画像信号生成部９０１、動領域分離予測部９０２の処理が異なる。

まず、背景画像生成部９０１について説明する。背景画像生成部９０１は、参照画像メモリ１０５から出力された参照画像信号１１６及びグローバルＭＶ８０３が入力される。背景画像生成部９０１は、グローバルＭＶ８０３を利用することによって、カメラが動いているような映像に対しても、背景画像信号３０６を生成することが可能である。まず、動領域分離マスク１１５の生成方法について説明する。動領域分離マスク１１５は、参照画像信号１１６とグローバルＭＶ８０３を用いて次式（１２）で算出される。

ここで、(gmv_x,gmv_y)はグローバルＭＶ８０３の水平・垂直成分を表している。また、ＭＣＬＤは、動き補償処理を施した復号画像信号を表しており、グローバルＭＶ８０３が分数精度の場合は、動き補償部３０１で説明したような動き補償処理を適用する。例えば１／４画素精度の場合は、式中の（gmv_x,gmv_y）をそれぞれ(gmv_x/4,gmv_y/4)に置き換える。グローバルＭＶ８０３が整数精度の場合は、式（１２）のＭＣＬＤをＬＤに置き換えた処理となる。

ここで、差分値の代表値を決める指標は、第１の実施形態で述べた方法を当てはめることが可能である。また、第１の実施形態と同様に一度生成した動領域分離マスクに対して補正を行っても良い。

次に、背景画像信号３０６の生成について説明する。背景画像信号３０６は、前述した動領域分離マスク１１５と復号画像信号１１４、及びグローバルＭＶ８０３を用いてから次式（１３）で導出される。

ここで、ＭＣＢＧは背景画像信号３０６に対してグローバルＭＶ８０３を用いて動き補償処理を行った値を示している。上式の通り、当該時刻の背景画像信号３０６の更新時は、参照画像信号１１６の中の時間的に最近接の復号画像信号１１４と動領域分離マスク１１５を利用し、マスクの値が0（背景画素）の場合は、最近接の復号画像信号１１４と更新前の背景画像信号３０６にグローバルＭＶ８０３を考慮したものの重み付き和で更新が行われる。

次に、動領域分離予測部９０２について説明する。動領域分離予測部９０２は、動きベクトル推定部２０３から出力された動きベクトル２０７、参照画像メモリ１０５から出力された参照画像信号１１６、及び背景画像信号生成部９０１から出力された背景画像信号３０６、及びグローバルＭＶ８０３が入力される。動領域分離予測部９０２は、入力された動領域分離マスク１１５を用いて、動領域に対して動き補償処理を、背景領域に対しては、グローバルＭＶ８０３を用いた動き補償処理を行い、別々の予測方法で予測された信号を合成する機能を有する。尚、入力された動きベクトル２０７を用いて動領域分離マスク１１５にもマッチングを行う。つまり、動き補償部３０１の説明で述べた動きベクトルから補間位置の導出を動領域分離マスク１１５にも適用する。この場合、動領域分離マスクは整数画素精度のみなので、分数精度の動きベクトルの場合は、整数画素精度へのマッピングを行う。１／４画素精度の動き補償処理の場合の整数画素位置へのマッピングは式（１１）で表される。導出された整数精度の動きベクトルを用いて次式（１４）のようにして動領域分離予測が行われる。

ここでＰは動領域分離予測によって生成される予測画像信号を表している。動領域に対しては通常の動き補償予測を、背景領域に対しては、背景画像信号３０６を、グローバルＭＶ８０３を用いて動き補償することによって、動オブジェクトの形状によらずに予測精度を上げることが可能となる。このようにして作成された予測画像信号が動領域分離予測部３０２から出力されるとともに、この時利用したブロック形状、動きベクトル２０７、及びグローバルＭＶ８０３などの予測情報１１９が、符号化制御部１０７に記録され、エントロピー符号化され、最終的に符号化データに多重化される。

図２７に本実施の形態におけるスライスヘッダーシンタクスの例を示す。図中に示されるslice_global_motion_flagは、グローバルＭＶ８０３を利用した動領域分離予測を行うかどうかを示すフラグである。slice_global_motion_flagが0である場合、背景画像生成部９０１及び動領域分離予測部９０２は、第１の実施の形態で説明した背景画像生成部３０３及び動領域分離予測部３０２と同様の予測を行う。つまり、グローバルＭＶ８０３は送られず、利用しない。一方、slice_global_motion_flagが１である場合、予め定められたグローバルＭＶ８０３のパラメータの数を示すNumOfGMPの数だけ、gmv_paramを符号化する。これらの情報を用いて、背景画像生成部９０１及び動領域分離予測９０２で対応する予測画像信号が生成される。本実施の形態では、NumOfGMP=2の例を示しており、gmv_param[0]は水平方向の動きベクトルを、gmv_param[1]は垂直方向の動きベクトルを表している。これらの情報は、グローバルベクトル推定部８０２によって算出され、符号化制御部１０７が与える予測情報１１９として符号列符号化部１０８で符号化される。

ここで、本実施の形態ではgmv_paramが直接グローバルMV８０３のパラメータとして与えられる例を示したが、直近に符号化されたスライスのグローバルＭＶ８０３からの差分値を符号化しても良いし、予め定めた予測方法によってグローバルＭＶ８０３を算出し、そこからの差分値を符号化しても良い。

以上が、本発明に係わる動画像符号化装置１００のインター予測部８０１の説明である。

（第３の実施形態：適応補間フィルタ）
本実施の形態では、動画像符号化装置１００の構造は図２と同一であるため、説明を省略する。但し、予測部１０６の機能が異なっているため、予測部１００１が設けられている。図２１に第３の実施形態における予測部１００１を示す。尚、既に説明した機能と同様の機能を持つものに対しては同じインデックスを与えて、その説明を省略する。尚、インター予測部２０２は、機能の違いのためにインター予測部１１０１が設けられている。

予測部１００１では、インター予測部１１０１に加えて、動き補償フィルタ係数推定部１１０２が設けられている。動き補償フィルタ係数推定部１１０２は、符号化フレーム毎、符号化スライス毎或いはマクロブロック毎に、インター予測の動き補償処理で用いるフィルタ係数１１０３を算出する機能を有する。本実施の形態では、動き補償処理として二次元６タップのＦＩＲフィルタを例に挙げて説明するが、タップ数はＮタップと仮定することが可能であり、利用するハードウェア等の制限によって自由に選択できる。また、一次元フィルタ、二次元フィルタや三次元フィルタなども適用可能である。

動き補償フィルタ係数推定部１１０２では、入力画像信号１１０や予測画像信号１１７の性質に応じてフィルタ係数を設計する。例えば、既に第１、２の実施の形態中の動き補償部３０１で説明したように、フィルタ係数固定の動き補償フィルタで予測したときの予測誤差と動きベクトルとの対応関係を累積し、動きベクトルが指す分数位置毎の予測誤差が最小になるように、最小二乗法を用いてフィルタ係数を算出する。このときの評価基準として次式（１５）を用いる。

ここで、Oは入力画像信号１１０を示しており、ＭＣは固定フィルタを用いて算出された予測画像信号である。ｈは導出するフィルタ係数１１０３を示しており、(i,j)はフィルタリング処理を行う分数位置を示している。また、(a,b)はフィルタオフセットを示す固定値である。式（１５）の二乗コストが最小となるようにフィルタ係数ｈを設計する。設計されたフィルタ係数１１０３は、インター予測部１１０１へと入力される。

本実施の形態では、通常の固定動き補償フィルタを用いてフィルタを設計する方法について説明したが、入力画像信号１１０の特徴量を用いてフィルタを設計しても良い。例えば、高周波数成分用のフィルタ係数セット、中周波数成分用のフィルタ係数セット、低周波数成分用のフィルタ係数セットを用意しておき、入力画像信号の周波数特性に応じて、選択的にフィルタ係数を入力しても良い。

次に、インター予測部１１０１について説明する。図２２はインター予測部１１０１のブロック図である。第1の実施形態の動領域分離予測部３０２に対してフィルタ係数１１０３が入力されている以外は図１と同一であるため、それ以外の説明を省略する。

先ず動領域分離予測部１２０１について説明する。動領域分離予測部１２０１は、動きベクトル推定部２０３から出力された動きベクトル２０７、参照画像メモリ１０５から出力された参照画像信号１１６、及び背景画像信号生成部９０１から出力された背景画像信号３０６、及びフィルタ係数１１０３が入力される。動領域分離予測部１２０１は、入力された動領域分離マスク１１５を用いて、動領域に対して適応動き補償処理を、背景領域に対しては、背景画像信号３０６の補填を行い、別々の予測方法で予測された信号を合成する機能を有する。尚、入力された動きベクトル２０７を用いて動領域分離マスク１１５にもマッチングを行う。つまり、動き補償部３０１の説明で述べた動きベクトルから補間位置の導出を動領域分離マスク１１５にも適用する。この場合、動領域分離マスクは整数画素精度のみなので、分数精度の動きベクトルの場合は、整数画素精度へのマッピングを行う。１／４画素精度の動き補償処理の場合の整数画素位置へのマッピングは式（１０）で表される。導出された整数精度の動きベクトルを用いて次式（１６）によって予測画像信号が生成される。

ここでＡＭＣは適応動き補償予測によって導出された予測値を示している。より具体的に図７を参照しながら適応動き補償予測を説明する。

最初に１／２画素位置に対応するａ，ｂ，ｃ，ｄ，ｈ，ｎの画素位置の予測値を６タップの１次元フィルタで生成する。例えばａ、ｄの画素位置に対応する予測値は次式（１７）で生成される。

次に残りの分数精度位置に対応するｅ，ｆ，ｇ，ｉ，ｊ，ｋ，ｐ，ｑ，ｒの画素位置の予測値を６タップの２次元フィルタで生成する。例えばｅの画素位置に対応する予測は次式（１８）で生成される。

上記生成方法で予測画像を作成する場合、フィルタ係数が最大３６０個程度発生する。そこで、空間的対照性を加味してフィルタ係数を統合する。例えば、上記画素ａ，ｃ，ｄ，ｌの対象性を利用して次式（１９）でフィルタ係数を統合する。

このような対照性を利用した係数を利用することで、適応動き補償予測で用いるフィルタ係数を削減することが可能である。

このように動き補償フィルタ係数推定部１１０２で算出され、入力されたフィルタ係数１１０３を利用して式（１６）のＡＭＣの予測画像信号を生成する。

動領域に対しては、算出されたフィルタ係数１１０３を用いて、適応動き補償を行い、背景領域に対しては、背景画像信号３０６を補填することによって、動いているオブジェクトと背景領域毎に最適な予測画像信号が生成できるため、予測精度を高めることが可能となる。このようにして作成された予測画像信号１１７が動領域分離予測部１２０１から出力されるとともに、この時利用したブロック形状、動きベクトル２０７、及びフィルタ係数１１０３などの予測情報１１９が、符号化制御部１０７に記録され、エントロピー符号化され、最終的に符号化データに多重化される。

図２７に本実施の形態におけるスライスヘッダーシンタクスの例を示す。図中に示されるslice_adaptive_filter_flagは、適応動き補償予測を利用した動領域分離予測を行うかどうかを示すフラグである。slice_adaptive_filter_flagが0である場合、動領域分離予測部１２０１は、第１の実施の形態で説明した動領域分離予測部３０２と同様の予測を行う。つまり、動画素に対する適応動き補償予測は行われず、フィルタ係数も利用しない。一方、slice_adaptive_filter_flagが１である場合、予め定められた二次元のフィルタ係数１１０３の個数を示すNumOfPosXとNumOfPosYの数だけ、filter_coeffを符号化する。これらの情報を用いて、動領域分離予測１２０１で動画素に対して適応動き補償予測が行われ、予測画像信号が生成される。これらの情報は、動き補償フィルタ係数推定部１１０２によって算出され、符号化制御部１０７が与える予測情報１１９として符号列符号化部１０８で符号化される。

ここで、本実施の形態ではfilter_coeffが直接フィルタ係数１１０３のパラメータとして与えられる例を示したが、直近に符号化されたスライスのフィルタ係数１１０３からの差分値を符号化しても良いし、予め定めた予測方法によってフィルタ係数１１０３を算出し、そこからの差分値を符号化しても良い。

以上が、本発明に係わる動画像符号化装置１００のインター予測部１１０１の説明である。

以上説明したように、本実施形態では、矩形ブロックに適さない動オブジェクトを予測するために、過度のブロック分割が施されて、ブロック分割情報が増大することを防ぐ。つまり、付加的な情報を増加させずに、ブロック内の動領域と背景領域を分離し、それぞれに最適な予測方法を適用することによって、符号化効率を向上させると共に主観画質も向上するという効果を奏する。

＜動画像復号化装置＞
次に、動画像復号化に関する第４〜第６の実施形態について述べる。
（第４の実施形態）
図２９は、図１〜図２８を用いて説明した第１〜第３の実施形態に従う動画像符号化装置に対応する、第４の実施形態に従う動画像復号化装置を示している。動画像復号化装置４００は、入力バッファ４０１から入力される符号化データ４０９を復号する符号列復号部４０２、符号列復号部４０２からの変換係数を逆量子化し、逆変換する逆量子化・逆変換部４０３、逆量子化・逆変換部４０３からの予測誤差信号４１１と予測画像信号４１５とを加算する加算器４０４、加算器４０４からの復号画像信号を参照画像として記憶する参照画像メモリ４０５、参照画像信号４１３，動領域マスク４１４，予測情報および動きベクトル４１７を受けて予測画像信号４１５を生成する予測部４０６を備えている。動画像符号化装置４００は符号化制御部４０８によって制御され、復号画像信号を出力バッファ４０７に出力する。

上記構成において、図１に示した動画像符号化装置１００などから送出され、蓄積系または伝送系を経て送られてきた符号化データ４０９は入力バッファ４０１に一度蓄えられ、多重化された符号化データが動画像復号化装置４００に入力される。

動画像復号化装置４００では、符号化データが符号列復号部４０２に入力され、１フレームまたは１フィールド毎にシンタクスに基づいて構文解析による解読が行われる。すなわち、符号列復号部４０２では、順次各シンタクスの符号列がエントロピー復号化され、予測情報４１６、変換係数４１０、対象ブロックの符号化パラメータなどが再生される。本実施の形態においては、符号化パラメータとは、予測情報４１６はもとより、変換係数に関する情報、量子化に関する情報、などの復号の際に必要になるあらゆるパラメータを指す。

符号列復号部４０２で解読が行われた変換係数４１０は、逆量子化・逆変換部４０３へと入力される。符号列復号部４０２によって解読された量子化に関する様々な情報、すなわち、量子化パラメータや量子化マトリクスは、復号化制御部４０８に設定され、逆量子化処理として利用される際にロードされる。ロードされた量子化に関する情報を用いて、逆量子化・逆変換部４０３では、最初に逆量子化処理が行われる。逆量子化された変換係数４１０は、続いて逆変換処理（例えば逆離散コサイン変換など）が実行される。ここでは、逆直交変換について説明したが、符号化装置でウェーブレット変換などが行われている場合、逆量子化・逆変換部４０３は、対応する逆量子化及び逆ウェーブレット変換などが実行されても良い。

逆量子化・逆変換部４０３を通って、復元された予測誤差信号４１１は加算器４０４へと入力され、ここで後述する予測部４０６で生成された予測画像信号４１５と加算され、復号画像信号４１２が生成される。生成された復号画像信号４１２は、動画像復号化装置４００から出力されて、出力バッファ４０７に一旦蓄積された後、復号化制御部４０８が管理する出力タイミングに従って出力される。また、この復号画像信号４１２は参照画像メモリ４０５へと保存され、参照画像信号４１３となる。参照画像信号４１３は参照画像メモリ４０５から、順次フレーム毎或いはフィールド毎に読み出され、予測部４０６へと入力される。

次に、予測部４０６について説明する。符号列復号部４０２で解読された予測方法を示す予測情報４１６が予測部４０６に入力されるとともに、参照画像メモリ４０５に蓄積されている既に符号化済みの復号画像信号４１２が参照画像４１３として予測部４０６へと入力される。尚、本図では、説明時の簡略化のために、動き補償予測と動領域分離予測で利用される予測情報４１６中の動きベクトル４１７を分けて入力している。

図３０に予測部４０６のブロック図を示す。予測部４０６は、予測切替スイッチ５０３、イントラ予測部５０１、インター予測部５０２を備えている。予測部４０６に入力された予測情報４１６に含まれる予測モードに従って予測切替スイッチ５０３は、どの予測方法で予測するかを切り替える機能を有する。予測モードがイントラ予測であった場合、予測切替スイッチ５０３はイントラ予測部５０１へと接続される。一方、予測モードがインター予測であった場合、予測切替スイッチはインター予想部５０２へと接続される。

イントラ予測部５０１は、第１の実施の形態で説明した処理を行って予測画像信号４１７を生成する。本実施の形態では、４×４画素イントラ予測（図４Ｃ参照）、８×８画素イントラ予測（図４Ｄ参照）、１６ｘ１６画素イントラ予測（図４Ｂ参照）が規定されている。このイントラ予測では、参照画像メモリ４０５に保存されている参照画像信号４１３から、補間画素を作成し、空間方向にコピーすることによって予測値を生成している。

次に、インター予測部５０２について説明する。インター予測部５０２の構造は図２で説明した動画像符号化装置におけるインター予測部２０２と全く同じである。但し、予測部４０６内で生成される予測画像信号４１５は、予測情報４１６で与えられる予測モードのみの予測画像信号生成処理だけを行えばよい。つまり、与えられた予測モード以外の予測画像信号４１５を生成する必要はない。例えば、予測情報４１６で与えられる予測モードがインター予測である場合、符号列復号部４０２にて解読され、生成された動きベクトル４１７と予測情報４１６内に含まれるブロック形状情報、利用する参照画像信号のインデックスなどが与えられ、対象ブロックに対してこれらの与えられた情報からただ１つの予測画像信号４１５を生成すればよい。

インター予測部５０２（２０２）内の動き補償部３０１についてより詳細に説明する。動き補償部３０１では、まず動きベクトル４１７（２０７）の情報に従って、当該予測画素ブロックの位置から、式（３）を用いて動きベクトル４１７（２０７）で参照されている位置を割り出す。ここでは、Ｈ．２６４の１／４画素精度の補間を例に挙げて説明する。動きベクトルの各成分が４の倍数である場合は、整数画素位置を指していることを意味する。それ以外の場合は、分数精度の補間位置に対応する予測位置であることがわかる。次に割り出した画素位置に対して、参照画像信号４１３（１１６）の対応する画素位置の補填もしくは補間処理によって予測画素を生成する。図８にＨ．２６４の予測画素生成の例を示す。例えば、図中でアルファベットｂ、ｈの位置に対応する１／２画素の補間処理は式（４）で算出される。また、図中でアルファベットａ、ｄの位置に対応する１／４画素の補間処理は式（５）で算出される。このように１／２画素位置の補間画素は、６タップＦＩＲフィルタ（タップ係数：(1，−５，２０，２０、−５，１)／３２）を用いて生成し、１／４画素位置の補間画素は、２タップの平均値フィルタ（タップ係数：（１／２，１／２））を用いて算出される。４つの整数画素位置の中間に存在するアルファベットｊに対応する１／２画素の補間処理は、垂直方向６タップと水平方向６タップの両方向を行うことによって生成される。説明した以外の画素位置も同様のルールで補間値が生成できる。以上が、動き補償部３０１おける予測画像信号生成の例である。

次に、背景画像生成部３０３について説明する。背景画像生成部３０３は、入力された参照画像信号４１３（１１６）を用いて、背景画像信号３０６及び動領域分離マスク４１４（１１５）を生成する機能と、生成した背景画像信号３０６を保持するメモリとしての機能を有する。まず、動領域分離マスク４１４（１１５）の生成について説明する。動領域分離マスク４１４（１１５）は、参照画像信号４１３（１１６）で提供された各々の時刻で復号された復号画像信号１１４に対してそれぞれ１つずつ存在する。動領域分離マスク４１４（１１５）は、同時刻に復号された復号画像信号４１２の各画素に対して、それ以前に復号された復号画像信号４１２との時間的な輝度変化（差分値）が予め定めた規定値ＴＨよりも小さい場合に背景画素と認定し、輝度変化が規定値ＴＨを超える場合を動画素と判定する２値のマスクマップであり式（６）で表される。

利用可能な参照画像信号４１３（１１６）が複数ある場合は、式（７）を用いて背景画素であるか、動画素であるかを判定する。図９に複数の参照画像信号に対して差分値を求める際の対応関係を示す。また、図１１に予測対象画素ブロックからの時間的距離に応じて重みｗを変える例を示す。

尚、上記では単純に差分値のみによって画素の領域判定を行う例を示したが、代表値を決める指標として、利用可能な複数の復号画像信号間（時間方向）の画素の差分値、差分値の最大値、差分値の平均値、差分値のメディアン値、差分値の分散を用いて判定しても良いし、復号画像信号の領域判定を行う画素に隣接する画素（空間方向）の差分値の最大値、差分値の平均値、差分値のメディアン値、差分値の分散、などの指標を用いて判定しても良い。

また、一度生成した動領域分離マスクに対して補正を行っても良い。例えば、生成した動領域分離マスクの補正対象画素において、隣接位置に対応する上下左右の４点、或いは対角方向も含めた９点のマスクの値を用いて、孤立点となるような領域を補正したり、予測ブロック形状に合わせてブロック境界のマスクの値を修正したりしても良い。この場合の例が式（８）に示されている。図１１に対象画素と隣接画素の関係を示す。図１０の丸印の密度が高くなるほど対象画素との距離が離れることを意味している。更に図１２に空間方向の市街地距離に応じて、重みｖを変更する例を示す。このように空間方向に対して重みｖを適切に設定することによって、生成された動領域分離マスクを補正することができ、孤立点の除去、不連続点の連結、矩形ブロックへの領域拡大・縮小、エッジ修正、画素補填、画素マッチング等が可能となる。尚、本発明の本実施の形態では、市街地距離による重み変更例を示したが、距離の定義は市街地距離、マンハッタン距離などを含む、ミンコフスキー距離の中から１つを用いて計算することが可能である。

次に、背景画像信号３０６の生成について説明する。背景画像信号３０６とは、時間方向で輝度変化が少ない背景領域のみを集めた信号となっており、動領域分離マスク４１４（１１５）と時間的に最近接の復号画像信号４１２に基づいて画素毎に導出される。前述した動領域分離マスク４１４（１１５）から式（９）を用いて背景画像信号３０６を生成する。当該時刻の背景画像信号３０６の更新時は、参照画像信号４１３（１１６）の中の時間的に最近接の復号画像信号４１２と動領域分離マスク４１４（１１５）を利用し、マスクの値が0（背景画素の場合）のみ、最近接の復号画像信号１１４と更新前の背景画像信号３０６の重み付き和で更新が行われる。重み付き和は例えばwt=1/2に設定することで平均値フィルタとなる。一方、マスクの値が１（動画素の場合）には、更新は行われない。尚、背景画像信号３０６の初期値は、予め定めた輝度値（例えば輝度信号であれば０や最大輝度値（8ビットでは２５６）、色差信号であれば中間輝度値（8ビットで１２８））で埋めておいても良いし、画面内予測だけで符号化されるようなI-sliceの輝度値を用いたりしても良い。背景画像信号３０６のリフレッシュは、I-sliceが挿入された場合や、ＩＤＲピクチャが挿入された場合に行われる。本実施の形態ではI-sliceのタイミングで必ず背景画像信号３０６のリフレッシュが行われる例を示している。以上のような過程で背景画像信号３０６が適切なタイミングで更新される。

尚、背景画像信号３０６は、背景画像生成部３０３の内部メモリに保持されており、更新された信号が動領域分離予測部３０２へと出力される。また、生成された動領域分離マスク４１４（１１５）は、インター予測部２０２から出力され、予測部１０６を経て、同じ時刻の復号画像信号４１２とともに参照画像信号４１３として参照画像メモリ４０５へと保存される。

次に、動領域分離予測部３０２について説明する。動領域分離予測部３０２は、符号列復号部４０２で解読された動きベクトル４１７（２０７）、参照画像メモリ４０５から出力された参照画像信号４１３（１１６）、及び背景画像信号生成部３０３から出力された背景画像信号３０６が入力される。動領域分離予測部３０２は、入力された動領域分離マスク４１４（１１５）を用いて、動領域に対して動き補償処理を、背景領域に対しては、背景画像信号の補填を行い、別々の予測方法で予測された信号を合成する機能を有する。尚、入力された動きベクトル４１７（２０７）を用いて動領域分離マスク４１４（１１５）にもマッチングを行う。つまり、動き補償部３０１の説明で述べた動きベクトルから補間位置の導出を動領域分離マスク１１５にも適用する。この場合、動領域分離マスクは整数画素精度のみなので、分数精度の動きベクトルの場合は、整数画素精度へのマッピングを行う。１／４画素精度の動き補償処理の場合の整数画素位置へのマッピングは式（１０）で表される。導出された整数精度の動きベクトルを用いて式（１１）のようにして動領域分離予測が行われる。

例えば図８で生成された補間画素ａ、ｂ、ｊなどの値や整数画素Ｇ、Ｈ、Ｍなどの値がMCに入る。図１３に、参照画像信号が時間方向に４枚利用可能な場合の、復号画像信号４１２と動領域分離マスク４１４（１１５）の例と背景画像信号３０６の例を示す。このようにして作成された予測画像信号が動領域分離予測部３０２から出力される。

次に、予測切替部３０４と予測分離スイッチ３０５について説明する。予測切替部３０４は、入力されてきた動領域分離マスク４１４（１１５）の情報に基づいて、予測分離スイッチ３０５を制御するための予測切替情報３０７を出力する。予測分離スイッチ３０５は、予測切替情報３０７に従って、スイッチの出力端を動き補償部３０１側に接続するか、動領域分離予測部３０２側に接続するかを切り替える機能を有する。より具体的に説明すると、当該予測対象画素ブロック内に含まれる動領域分離マスクの比率を算出し、動領域が予め設定した規定値ＴＰより大きいか、小さいかによって予測切替情報３０７を更新する。図１４に、ＴＰ＝９０％に設定した場合の切替の例を示している。このようにして、予測対象画素ブロックのインター予測の予測方法（動き補償予測と動領域分離予測）が動的に切り替えられ、インター予測部２０２から予測画像信号４１５（１１７）が出力される。

次に、本動画像復号化装置４００におけるシンタクス構造について説明する。図２４に示すとおり、シンタクスは主に３つのパートからなり、ハイレベルシンタクス１６０１は、スライス以上の上位レイヤのシンタクス情報が詰め込まれている。スライスレベルシンタクス１６０２では、スライス毎に必要な情報が明記されており、マクロブロックレベルシンタクス１６０３では、マクロブロック毎に必要とされるデータが明記されている。

図２５にスライスヘッダーシンタクスの例を示す。図中に示されるslice_motion_region_separation_flagは、インター予測部５０２（２０２）中の予測切替部３０４から出力される予測切替情報３０７に利用される。slice_motion_region_separation_flagが0である場合、予測切替部３０４は、スライスにおいて常に動き補償予測部３０１の出力端を出力するように予測切替情報３０７を設定して予測分離スイッチ３０５を切り替える。つまり、必ず動き補償予測が行われることを意味している。一方、slice_motion_region_separation_flagが１である場合、前述の通り、スライスにおいて背景画像生成部３０３から出力された動領域分離マスク４１４（１１５）の信号に基づいて動き補償予測と動領域分離予測が動的に切り替わる。

図２６に符号化パラメータの例としてマクロブロックレイヤーシンタクスの例を示す。表中に示されるｍｂ＿ｔｙｐｅは、マクロブロックタイプ情報を示している。すなわち、現在のマクロブロックがイントラ符号化されているか、インター符号化されているか、或いはどのようなブロック形状で予測が行われているか、などの情報を含んでいる。表中に示されるｃｏｄｅｄ＿ｂｌｏｃｋ＿ｐａｔｔｅｒｎは、８×８画素ブロック毎に、変換係数が存在するかどうかを示している。例えばこの値が０である時、対象ブロックに変換係数が存在しないことを意味している。表中のｍｂ＿ｑｐ＿ｄｅｌｔａは、量子化パラメータに関する情報を示している。対象ブロックの１つ前に符号化されたブロックの量子化パラメータからの差分値を表している。表中のｉｎｔｒａ＿ｐｒｅｄ＿ｍｏｄｅは、イントラ予測の予測方法を示す予測モードを示している。表中のｒｅｆ＿ｉｄｘ＿ｌ０及びｒｅｆ＿ｉｄｘ＿ｌ１は、インター予測が選択されているときに、対象ブロックがどの参照画像を用いて予測されたか、を表す参照画像のインデックスを示している。表中のｍｖ＿ｌ０、ｍｖ＿ｌ１は動きベクトル情報を示している。表中のｔｒａｎｓｆｏｒｍ＿８ｘ８＿ｆｌａｇは、対象ブロックが８×８変換であるかどうかを示す変換情報を表している。

表中の行間には、本発明で規定していないシンタクス要素が挿入されることも可能であるし、それ以外の条件分岐に関する記述が含まれていても良い。或いは、シンタクステーブルを複数のテーブルに分割、統合することも可能である。また、必ずしも同一の用語を用いる必要は無く、利用する形態によって任意に変更しても良い。更に、マクロブロックレイヤーシンタクスに記述されている各々のシンタクスエレメントは、後述するマクロブロックデータシンタクスに明記されるように変更しても良い。

以上が、本発明に係わる動画像復号化装置４００の説明である。

（第４の実施形態：変更例１：切替情報のシグナリング）
本実施の形態では、インター予測部５０２（２０２）内の予測方法として、動き補償部３０１と動領域分離予測部３０２の２つを予測切替部３０４によって動的に切り替える例を示したが、動き補償予測と動領域分離予測の切替を動的に行わない実施の形態も可能である。この場合、どちらの予測方法が利用されたかのインデックスを復号化する必要が生じる。このインデックスは、予測切替情報３０７に記述されており、選択された予測画像信号１１７に対するインデックスが予測切替情報３０７に記述されている。

図１５にマクロブロック毎に利用した予測方法を示すインデックスを復号化する例を示す。また、図２７に本実施の形態におけるマクロブロックレイヤーシンタクスの例を示す。図中に示されるmb_motion_region_separation_flagは、インター予測部５０２（２０２）中の予測切替部３０４から出力される予測切替情報３０７に利用される。mb_motion_region_separation_flagが0である場合、予測切替部３０４は、マクロブロックにおいて常に動き補償予測部３０１の出力端を出力するように予測切替情報３０７を設定して予測分離スイッチ３０５を切り替える。つまり、必ず動き補償予測が行われることを意味している。一方、mb_motion_region_separation_flagが１である場合、予測切替部３０４は、マクロブロックにおいて常に動領域分離予測部３０２の出力端を出力するように予測切替情報３０７を設定して予測分離スイッチ３０５を切り替える。つまり、必ず動領域分離予測が行われることを意味している。SignalingFlagはmb_motion_region_separation_flagを符号化するかどうかを決定するための内部パラメータである。SignalingFlagが1の場合、動画素の比率が規定値THMAXからTHMINの間に含まれることを意味する。一方、SignalingFlagが0の場合、動画素の比率が規定値THMAXからTHMINの間に含まれないことを意味する。

（第４の実施形態：変更例２：予測画像信号の使いまわし）
本実施の形態では、動き補償部３０１と動領域分離予測部３０２をそれぞれ別々の予測方法として記述しているが、動領域分離予測部３０２内で動き補償部３０１と同様の予測方法も用いている。このように同様の処理を複数回行うことによる演算量の増加を避けるため、図１８に示すように動き補償部３０１で算出した予測画像信号４１５（１１７）を動領域分離予測部３０２へと入力する構造としても良い。或いは動き補償部３０１の機能を動領域分離予測部３０２と統合させても良い。

（第４の実施形態：変更例３：切替構造の削除）
本実施の形態では、動き補償部３０１と動領域分離予測部３０２をそれぞれ別々の予測方法として記述しているが、予測方法を動領域分離予測３０２に単一化して、予測切替部３０４を削除する構造としても良い。図１９に、動き補償部３０１、予測切替部３０４、予測分離スイッチ３０５を削除した実施形態を示す。予測構造が簡略化するため、ハードウェア規模などの増大を防ぐことが可能となる。

（第５の実施形態：グローバルＭＣ）
本実施の形態では、動画像復号化装置４００において、予測情報４１６にグローバルＭＶ１４０１の情報が含まれている。尚、動画像復号化装置４００としての構造は図２９と変わらないため、同じ構成要素に関する説明は省略する。但し、予測部４０６の機能が異なるため、図３１に示されるように新たに予測部１４００が設けられている。予測部１４００は、構造としては予測部４０６と同一であるが、予測情報４１６に含まれているグローバルＭＶ１４０１がインター予測部８０１へと入力されている点だけが異なる。

インター予測部８０１内の機能について図２０を用いて説明する。まず、背景画像生成部９０１について説明する。背景画像生成部９０１は、参照画像メモリ４０５（１０５）から出力された参照画像信号４１３（１１６）及びグローバルＭＶ１４０１（８０３）が入力される。背景画像生成部９０１は、グローバルＭＶ１４０１（８０３）を利用することによって、カメラが動いているような映像に対しても、背景画像信号３０６を生成することが可能である。まず、動領域分離マスク４１４（１１５）の生成方法について説明する。動領域分離マスク４１４（１１５）は、参照画像信号４１３（１１６）とグローバルＭＶ１４０１（８０３）を用いて式（１２）で算出される。ここで、差分値の代表値を決める指標は、第４の実施形態で述べた方法を当てはめることが可能である。また、第４の実施形態と同様に一度生成した動領域分離マスクに対して補正を行っても良い。

次に、背景画像信号３０６の生成について説明する。背景画像信号３０６は、前述した動領域分離マスク４１４（１１５）と復号画像信号４１２、及びグローバルＭＶ１４０１（８０３）を用いてから式（１３）で導出される。

次に、動領域分離予測部９０２について説明する。動領域分離予測部９０２は、動きベクトル４１７（２０７）、参照画像信号４１３、及び背景画像信号生成部９０１から出力された背景画像信号３０６、及びグローバルMV１４０１（８０３）が入力される。動領域分離予測部９０２は、入力された動領域分離マスク４１４（１１５）を用いて、動領域に対して動き補償処理を、背景領域に対しては、グローバルＭＶ１４０１（８０３）を用いた動き補償処理を行い、別々の予測方法で予測された信号を合成する機能を有する。尚、入力された動きベクトル４１７（２０７）を用いて動領域分離マスク４１４（１１５）にもマッチングを行う。つまり、動き補償部３０１の説明で述べた動きベクトルから補間位置の導出を動領域分離マスク４１４（１１５）にも適用する。この場合、動領域分離マスクは整数画素精度のみなので、分数精度の動きベクトルの場合は、整数画素精度へのマッピングを行う。１／４画素精度の動き補償処理の場合の整数画素位置へのマッピングは式（１０）で表される。導出された整数精度の動きベクトルを用いて式（１４）のようにして動領域分離予測が行われる。

動領域に対しては通常の動き補償予測を、背景領域に対しては、背景画像信号３０６を、グローバルＭＶ１４０１（８０３）を用いて動き補償することによって、動オブジェクトの形状によらずに予測精度を挙げることが可能となる。

図２７に本実施の形態におけるスライスヘッダーシンタクスの例を示す。図中に示されるslice_global_motion_flagは、グローバルＭＶ１４０１（８０３）を利用した動領域分離予測を行うかどうかを示すフラグである。slice_global_motion_flagが0である場合、背景画像生成部９０１及び動領域分離予測部９０２は、第４の実施の形態で説明した背景画像生成部３０３及び動領域分離予測部３０２と同様の予測を行う。つまり、グローバルＭＶ１４０１（８０３）は復号されず、利用できない。

一方、slice_global_motion_flagが１である場合、予め定められたグローバルＭＶ１４０１（８０３）のパラメータの数を示すNumOfGMPの数だけ、gmv_paramを復号化する。これらの情報を用いて、背景画像生成部９０１及び動領域分離予測９０２で対応する予測画像信号が生成される。本実施の形態では、NumOfGMP=2の例を示しており、gmv_param[0]は水平方向の動きベクトルを、gmv_param[1]は垂直方向の動きベクトルを表している。

ここで、本実施の形態ではgmv_paramが直接グローバルＭＶ１４０１（８０３）のパラメータとして与えられる例を示したが、直近に復号されたスライスのグローバルＭＶ１４０１（８０３）からの差分値を符号化しても良いし、予め定めた予測方法によってグローバルMV１４０１（８０３）を算出し、そこからの差分値を復号しても良い。

以上が、本発明に係わる動画像復号化装置の説明である。

（第６の実施形態：適応補間フィルタ）
本発明の本実施の形態では、動画像復号化装置４００において、予測情報４１６にフィルタ係数１５０１の情報が含まれている。尚、動画像復号化装置４００としての構造は図２９と変わらないため、同じ構成要素に関する説明は省略する。但し、予測部４０６の機能が異なるため、新たに予測部１５００のインデックスを与え、図３２で説明する。予測部１５００は、構造としては予測部４０６と同一であるが、予測情報４１６に含まれているフィルタ係数１５０１がインター予測部１１０１へと入力されている点だけが異なる。

インター予測部１１０１内の機能について図２２を用いて説明する。動領域分離予測部１２０１は、動きベクトル４１７（２０７）、参照画像信号４１３（１１６）、及び背景画像信号生成部９０１から出力された背景画像信号３０６、及びフィルタ係数１５０１（１１０３）が入力される。動領域分離予測部１２０２は、入力された動領域分離マスク４１４（１１５）を用いて、動領域に対して適応動き補償処理を、背景領域に対しては、背景画像信号３０６の補填を行い、別々の予測方法で予測された信号を合成する機能を有する。尚、入力された動きベクトル４１７（２０７）を用いて動領域分離マスク４１４（１１５）にもマッチングを行う。つまり、動き補償部３０１の説明で述べた動きベクトルから補間位置の導出を動領域分離マスク４１４（１１５）にも適用する。この場合、動領域分離マスクは整数画素精度のみなので、分数精度の動きベクトルの場合は、整数画素精度へのマッピングを行う。１／４画素精度の動き補償処理の場合の整数画素位置へのマッピングは式（１０）で表される。導出された整数精度の動きベクトルを用いて式（１６）によって予測画像信号が生成される。

より具体的に図８を参照しながら適応動き補償予測を説明する。最初に１／２画素位置に対応するａ，ｂ，ｃ，ｄ，ｈ，ｎの画素位置の予測値を６タップの１次元フィルタで生成する。例えばａ、ｄの画素位置に対応する予測値は式（１７）で生成される。次に残りの分数精度位置に対応するｅ，ｆ，ｇ，ｉ，ｊ，ｋ，ｐ，ｑ，ｒの画素位置の予測値を６タップの２次元フィルタで生成する。例えばｅの画素位置に対応する予測は式（１８）で生成される。尚フィルタの対照性を考慮して、式（１９）を用いてフィルタ係数１５０１（１１０３）を統合する。このような対照性を利用した係数を利用することで、適応動き補償予測で用いるフィルタ係数１５０１（１１０３）を削減することが可能である。

動領域に対しては復号されたフィルタ係数１５０１（１１０３）を用いて、適応動き補償を行い、背景領域に対しては、背景画像信号３０６を補填することによって、動いているオブジェクトと背景領域毎に最適な予測画像信号が生成できるため、予測精度を高めることが可能となる。

図２８に本実施の形態におけるスライスヘッダーシンタクスの例を示す。図中に示されるslice_adaptive_filter_flagは、適応動き補償予測を利用した動領域分離予測を行うかどうかを示すフラグである。slice_adaptive_filter_flagが0である場合、動領域分離予測部１２０１は、第３の実施の形態で説明した動領域分離予測部３０２と同様の予測を行う。つまり、動画素に対する適応動き補償予測は行われず、フィルタ係数も利用しない。一方、slice_adaptive_filter_flagが１である場合、予め定められた二次元のフィルタ係数の個数を示すNumOfPosXとNumOfPosYの数だけ、filter_coeffを復号する。これらの情報を用いて、動領域分離予測１２０１で動画素に対して適応動き補償予測が行われ、予測画像信号が生成される。

ここで、本実施の形態ではfilter_coeffが直接フィルタ係数１５０１（１１０３）のパラメータとして与えられる例を示したが、直近に復号化されたスライスのフィルタ係数１５０１（１１０３）からの差分値を復号化しても良いし、予め定めた予測方法によってフィルタ係数を算出し、そこからの差分値を復号化しても良い。

以上が、本発明に係わる動画像復号化装置の説明である。

（第１〜第６の実施形態の変形例）
（１）第１〜第６の実施形態においては、処理対象フレームを１６×１６画素サイズなどの短形ブロックに分割し、図４Ａに示したように画面左上のブロックから右下に向かって順に符号化／復号化する場合について説明しているが、符号化／復号化順序はこれに限られない。例えば、右下から左上に向かって順に符号化／復号化を行ってもよいし、画面中央から渦巻状に向かって順に符号化／復号化を行ってもよい。さらに、右上から左下に向かって順に符号化／復号化を行ってもよいし、画面の周辺部から中心部に向かって順に符号化／復号化を行ってもよい。

（２）第１〜第６の実施形態においては、ブロックサイズを４×４画素ブロック、８×８画素ブロックとして説明を行ったが、対象ブロックは均一なブロック形状にする必要なく、１６×８画素ブロック、８×１６画素ブロック、８×４画素ブロック、４×８画素ブロックなどのブロックサイズであってもよい。また、１つのマクロブロック内でも均一なブロックサイズを取る必要はなく、それぞれ異なるサイズのブロックを混在させてもよい。この場合、分割数が増えると分割情報を符号化するための符号量が増加するが、変換係数の符号量と局部復号画像とのバランスを考慮して、ブロックサイズを選択すればよい。

（３）第１〜第６の実施形態においては、輝度信号と色差信号を分割せず、一方の色信号成分に限定した例として記述した。しかし、予測処理が輝度信号と色差信号で異なる場合、それぞれ異なる予測方法を用いてもよいし、同一の予測方法を用いても良い。異なる予測方法を用いる場合は、色差信号に対して選択した予測方法を輝度信号と同様の方法で符号化／復号化する。

（４）第１及び第４の実施形態においては、図１７で説明したように、動き補償部３０１で生成された予測画像信号を動領域分離予測部３０２で使いまわす変更例や、図１８で説明したように、動き補償部３０１を削除して、常に動領域分離予測部３０２を利用する変更例を示したが、これらの変更例は第２、３実施の形態及び第５，６実施の形態においても同様の枠組みが適応可能である。また、第２及び５実施の形態におけるグローバルＭＶ８０３を利用した動き補償予測を、動き補償部３０１に適用しても良いし、実施の形態３及び６におけるフィルタ係数１１０３を利用する適応動き補償予測を動き補償部３０１に適応しても一向に構わない。

なお、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

第１の実施形態に従う動画像符号化装置を示すブロック図第１の実施形態に従う予測部を示すブロック図第１の実施形態に従うインター予測部を示すブロック図符号化の処理の流れを示す図１６×１６画素ブロックを示す図４×４画素ブロックを示す図８×８画素ブロックを示す図参照画像信号と予測対象画像との位置関係と動きベクトルとの関係を示す図マクロブロック単位の動き補償ブロックのサイズを示す図サブブロック単位の動き補償ブロックのサイズを示す図動き補償予測の際の整数画素と分数画素の位置関係を示す図複数の参照画像信号に対する対象画素と時間的に同位置の画素との関係を示す図予測対象画素ブロックからの時間的距離と重みとの関係を示す図対象画素と隣接画素の空間的位置関係と距離を示す図予測対象画素ブロックからの空間的距離と重みとの関係を示す図複数の復号画像信号と動領域分離マスク及び背景画像信号の予測の概要を示す図動領域分離マスク上の動画素と背景画素の比率によって予測方法が変わることを示す図動領域分離マスク上の動画素と背景画素の比率によって予測の切替を行うことを示す図背景画像信号生成部の処理の流れを示すフローチャート動領域分離予測部の処理の流れを示すフローチャート第１の実施形態の変形例として示されるインター予測部のブロック図第１の実施形態の変形例として示されるインター予測部のブロック図第２の実施形態に従った動画像符号化装置に設けられる予測部のブロック図図１９の予測部に設けられるインター予測部のブロック図第３の実施形態に従った動画像符号化装置に設けられる予測部のブロック図図２１の予測部に設けられるインター予測部のブロック図シンタクス構造を示す図スライスヘッダーに含まれる情報を示す図第１の実施の形態におけるマクロブロックレイヤーに含まれる情報を示す図第１の実施の形態の変更例におけるマクロブロックレイヤーに含まれる情報を示す図第２の実施の形態におけるスライスヘッダーシンタクスに含まれる情報を示す図第３の実施の形態におけるスライスヘッダーシンタクスに含まれる情報を示す図第４、５、６の実施形態に従う動画像復号化装置のブロック図第４の実施形態に従う動画像復号化装置に設けられる予測部を示すブロック図第５の実施形態に従う動画像復号化装置に設けられる予測部を示すブロック図第６の実施形態に従う動画像復号化装置に設けられる予測部を示すブロック図

符号の説明

１０１…減算器、１０２…変換・量子化部、１０３…逆変換・逆量子化部、１０４…加算器、１０５…参照画像メモリ、１０６…予測部、１０７…符号化制御部、１０８…符号列符号化部、１０９…出力バッファ、１１４…復号画像信号、１１５…動領域分離マスク、１１６…参照画像信号、１１７…予測画像信号、２０１…イントラ予測部、２０２…インター予測部、２０３…動きベクトル推定部、２０４…モード判定スイッチ、２０５…モード判定部、３０１…動き補償部、３０２…動領域分離予測部、３０３…背景画像生成部、３０４…予測切替部、３０５…予測分離スイッチ、３０６…背景画像信号

Claims

入力画像信号を複数の画素ブロックに分割し、参照画像信号を用いて各画素ブロックの予測処理を行い，前記入力画像信号と予測画像信号との差分信号を符号化する動画像符号化方法において、
各参照画像の信号毎に動領域と背景領域とを示す二値の動領域分離マスクを生成するマスク生成ステップと、
２つ以上の前記参照画像の信号の比較或いは前記参照画像の信号毎の二値の前記動領域分離マスクの値により、1つの背景画像の信号を生成或いは更新する背景画像生成／更新ステップと、
前記動領域分離マスクを用いて、（１）前記動領域に対応する、予測対象画像の第１部分に対して動き補償処理を行い、（２）前記背景領域に対応する、前記予測対象画像の第2部分には前記背景画像の信号を補間した信号を補填する、ことによって予測画像信号を生成する予測画像生成ステップと、
を有するように構成される動画像符号化方法。
前記マスク生成ステップは、前記参照画像の画素を前記動領域或いは前記背景領域と決定する基準を、利用可能な２つ以上の参照画像間或いは参照画像内の画素の差分値から導出される値に従って決定する、ことを特徴とする請求項１記載の動画像符号化方法。
前記マスク生成ステップ及び前記背景画像生成／更新ステップは、
利用可能な２つ以上の参照画像のいずれかと前記予測対象画像間に対して、撮像系の変化に起因する画像間の変化量を補正するためのグローバルベクトルを推定するステップと、推定されたグローバルベクトルに基づいて補間した画像を用いて、前記動領域分離マスクを生成及び前記背景画像の信号を生成或いは更新するステップと、
前記グローバルベクトルに関する情報を、シーケンス毎、画像毎、スライス毎、ブロック毎のいずれかの単位で符号化するステップと、
を含むことを特徴とする請求項１又は２記載の動画像符号化方法。
前記予測画像生成ステップは、前記動領域分離マスクが動領域と決定された画素に対して、整数精度或いは分数精度の補間画像を生成するフィルタの係数を画素位置ごとに変更するステップと、前記変更したフィルタ係数に関する情報を、シーケンス毎、画像毎、スライス毎、ブロック毎のいずれかの単位で符号化するステップと、
を含むことを特徴とする請求項１乃至３のいずれか１項記載の動画像符号化方法。
前記マスク生成ステップは、生成された前記動領域分離マスクに関して、空間的、或いは時間的に近接する、前記動領域分離マスクの複数の画素の距離に基づいた重みと、前記画素の差分値から導出される値に基づいて、孤立点の除去、不連続点の連結、矩形ブロックへの領域拡大・縮小、エッジ修正、画素補填、画素マッチング等の補正を行うステップを含むことを特徴とする請求項１乃至４のいずれか１項記載の動画像符号化方法。
前記予測画像生成ステップは、
前記予測対象画像の前記第１部分のブロックと同位置又は前記整数精度にマッピングしたローカル動きベクトルに基づいて導出された位置のいずれか１つ以上の動領域分割マスクに対して、前記動領域の比率或いは前記背景領域の比率を算出するステップと、
前記動領域の比率或いは前記背景領域の比率のいずれかが予め定めた規定値より大きいか、小さいか、に従って予測方法を切り替えるステップと、
を含むことを特徴とする請求項４項記載の動画像符号化方法。
前記予測画像生成ステップは、
前記動領域分離マスクに基づいて前記動領域と前記背景領域に対してそれぞれ異なる予測方法を適用する第１の予測方法と、前記予測対象画像のブロックに含まれる前記動領域分離マスクの値が全て動領域とみなして、単一の予測方法で予測する第２の予測方法を持ち、前記第１及び第２の予測方法のいずれの予測方法を用いたかを示す情報を符号化するステップを更に含むことを特徴とする請求項１乃至４のいずれか１項記載の動画像符号化方法。
前記予測画像生成ステップは、
前記動領域分離マスクで前記背景領域と決定された画素に対して、前記背景画像の信号を前記グローバルベクトルに基づいて補間した画素値を用いることによって前記予測画像信号を生成するステップと、
前記動領域と決定された画素に対して、前記参照画像信号を前記ローカル動きベクトルに基づいて補間した画素値を用いることによって前記予測画像信号を生成するステップと、
を含むことを特徴とする請求項１乃至３のいずれか１項記載の動画像符号化方法。
前記予測画像生成ステップは、輝度成分と色差成分毎又は、各々の色成分毎に、同じ動領域分離マスク又は異なる動領域分離マスクを利用できる予測方法を用いて前記予測画像信号を生成することを特徴とする請求項１乃至４のいずれか１項記載の動画像符号化方法。
入力画像信号を構成する各フレームを画素ブロック単位に符号化処理して得られた動画像符号化データを解読し、規定された方法で復号化処理する動画像復号化方法において、
各参照画像の信号毎に動領域と背景領域とを示す二値の動領域分離マスクを生成するマスク生成ステップと
前記２つ以上の参照画像の信号の比較或いは前記参照画像の信号毎の二値の前記動領域分離マスクの値により、1つの背景画像信号を生成或いは更新する背景画像生成／更新ステップと、
前記動領域分離マスクを用いて、（１）前記動領域に対応する、予測対象画像の第１部分に動き補償処理を行い、（２）前記背景領域に対応する、前記予測対象画像の第２部分には前記背景画像の信号を補間した信号を補填することによって予測画像信号を生成する予測画像信号生成ステップと、
を有することを特徴とする動画像復号化方法。
前記マスク生成ステップは、前記動領域或いは前記背景領域と判定する基準を、利用可能な２つ以上の参照画像間或いは参照画像内の画素の差分値から導出される値に従って決定する、ことを特徴とする請求項１０記載の動画像復号化方法。
（動画像復号化：動領域分離マスクのカメラ補正：中位概念）
前記マスク生成ステップ及び前記背景画像生成／更新ステップは、
利用可能な２つ以上の参照画像の信号のいずれかと前記予測対象画像間に対して、撮像系の変化に起因する画像間の変化量を補正するためのグローバルベクトルの推定を行い、推定されたグローバルベクトルに基づいて補間した画像を用いて、前記動領域分離マスクを生成及び前記背景画像信号を生成或いは更新するステップと、
前記グローバルベクトルに関する情報を、シーケンス毎、画像毎、スライス毎、ブロック毎のいずれかの単位で符号化するステップと、
を含むことを特徴とする請求項１０又は１１記載の動画像復号化方法。
前記予測画像生成ステップは、
前記動領域分割マスクが動領域と判定された画素に対して、整数精度或いは分数精度の補間画像を生成するフィルタの係数を画素位置ごとに変更するステップと、
前記変更したフィルタ係数に関する情報を、シーケンス毎、画像毎、スライス毎、ブロック毎のいずれかの単位で符号化するステップと、
を含むことを特徴とする前記請求項１０乃至１２のいずれか１項記載の動画像復号化方法。
前記マスク生成ステップは、生成された前記動領域分離マスクに関して、空間的、或いは時間的に近接する、前記動領域分離マスクの複数の画素の距離に基づいた重みと、前記画素の差分値から導出される値に基づいて、孤立点の除去、不連続点の連結、矩形ブロックへの領域拡大・縮小、エッジ修正、画素補填、画素マッチング等の補正を行うステップを含む、ことを特徴とする前記請求項１０乃至１３のいずれか１項記載の動画像復号化方法。
前記予測画像生成ステップは、前記予測対象画像の前記一部のブロックと同位置又は前記整数精度にマッピングしたローカル動きベクトルに基づいて導出された位置のいずれか１つ以上の動領域分割マスクに対して、前記動領域の比率或いは前記背景領域の比率を算出するステップと、前記動領域の比率或いは前記背景領域の比率のいずれかが予め定めた規定値より大きいか、小さいか、に従って予測方法を切り替えるステップと、
を含むことを特徴とする前記請求項１０乃至１３のいずれか１項記載の動画像復号化方法。
前記予測画像生成ステップは、
前記動領域分離マスクに基づいて前記動領域と前記背景領域に対してそれぞれ異なる予測方法を適用する第１の予測方法と、前記予測対象画像の前記第１部分のブロックに含まれる前記動領域分離マスクの値が全て動領域とみなして、単一の予測方法で予測する第２の予測方法を持ち、前記第１の予測方法と前記第２の予測方法のいずれの予測方法を用いたかを示す情報を復号化するステップを含む、ことを特徴とする前記請求項１０乃至１３のいずれか１項記載の動画像復号化方法。
前記予測画像生成ステップは、
前記動領域分離マスクで前記背景領域と判定された画素に対して、前記背景画像信号を前記グローバルベクトルに基づいて補間した画素値を用いることによって前記予測画像信号を生成するステップと、
前記動領域と判定された画素に対して、前記参照画像信号を前記ローカル動きベクトルに基づいて補間した画素値を用いることによって前記予測画像信号を生成するステップと、
を含むことを特徴とする前記請求項１０乃至１２のいずれか１項記載の動画像復号化方法。
前記予測画像生成ステップは、輝度成分と色差成分毎又は、各々の色成分毎に、同じ動領域分離マスク又は異なる動領域分離マスクを利用できる予測方法を用いて前記予測画像信号を生成することを特徴とする前記請求項１０乃至１３のいずれか１項記載の動画像復号化方法。
入力画像信号を複数の画素ブロックに分割し、参照画像信号を用いて各画素ブロックの予測処理を行い，前記入力画像信号と予測画像信号との差分信号を符号化する動画像符号化装置において、
各参照画像の信号毎に動領域と背景領域とを示す二値の動領域分離マスクを生成するマスク生成手段と、
２つ以上の前記参照画像の信号の比較或いは前記参照画像の信号毎の二値の前記動領域分離マスクの値によって、1つの背景画像の信号を生成或いは更新する背景画像生成／更新手段と、
前記動領域分離マスクを用いて、（１）前記動領域に対応する、予測対象画像の第１部分に対して動き補償処理を行い、（２）前記背景領域に対応する、前記予測対象画像の第２部分には背景画像信号を補間した信号を補填することによって予測画像信号を生成する予測画像生成手段と、
を有するように構成される動画像符号化装置。
前記マスク生成手段は、前記参照画像の画素を前記動領域或いは前記背景領域と決定する基準を、利用可能な２つ以上の参照画像間或いは参照画像内の画素の差分値から導出される値に従って決定する手段を含むことを特徴とする請求項１９記載の動画像符号化装置。
利用可能な２つ以上の参照画像のいずれかと前記予測対象画像間に対して、撮像系の変化に起因する画像間の変化量を補正するためのグローバルベクトルを推定する推定手段と、前記グローバルベクトルに関する情報を、シーケンス毎、画像毎、スライス毎、ブロック毎のいずれかの単位で符号化する符号化手段と、を更に含み、
前記マスク生成手段及び前記背景画像生成／更新手段は、推定された前記グローバルベクトルに基づいて補間した画像を用いて、前記動領域分離マスクを生成するマスク生成手段及び前記背景画像の信号を生成或いは更新する背景画像生成／更新手段によって構成される、
ことを特徴とする請求項１９又は２０記載の動画像符号化装置。
前記予測画像手段は、前記動領域分離マスクが動領域と決定された画素に対して、整数精度或いは分数精度の補間画像を生成するフィルタの係数を画素位置ごとに変更する変更手段と、前記変更したフィルタ係数に関する情報を、シーケンス毎、画像毎、スライス毎、ブロック毎のいずれかの単位で符号化する符号化手段と、
を含むことを特徴とする請求項１９乃至２１のいずれか１項記載の動画像符号化装置。
前記マスク生成手段は、生成された前記動領域分離マスクに関して、空間的、或いは時間的に近接する、前記動領域分離マスクの複数の画素の距離に基づいた重みと、前記画素の差分値から導出される値に基づいて、孤立点の除去、不連続点の連結、矩形ブロックへの領域拡大・縮小、エッジ修正、画素補填、画素マッチング等の補正を行う補正手段を含むことを特徴とする請求項１９乃至２２のいずれか１項記載の動画像符号化装置。
前記予測画像手段は、
前記予測対象画像の前記第１部分のブロックと同位置又は前記整数精度にマッピングしたローカル動きベクトルに基づいて導出された位置のいずれか１つ以上の動領域分割マスクに対して、前記動領域の比率或いは前記背景領域の比率を算出する算出手段と、
前記動領域の比率或いは前記背景領域の比率のいずれかが予め定めた規定値より大きいか、小さいか、に従って予測方法を切り替える切替手段と、
を含むことを特徴とする請求項２２項記載の動画像符号化装置。
前記予測画像生成手段は、
前記動領域分離マスクに基づいて前記動領域と前記背景領域に対してそれぞれ異なる予測方法を適用する第１の予測方法と、前記予測対象画像のブロックに含まれる前記動領域分離マスクの値が全て動領域とみなして、単一の予測方法で予測する第２の予測方法を持ち、前記第１及び第２の予測方法のいずれの予測方法を用いたかを示す情報を符号化する符号化手段を更に含むことを特徴とする請求項１９乃至２２のいずれか１項記載の動画像符号化装置。
前記予測画像生成手段は、
前記動領域分離マスクで前記背景領域と決定された画素に対して、前記背景画像の信号を前記グローバルベクトルに基づいて補間した画素値を用いることによって前記予測画像信号を生成する生成手段と、
前記動領域と決定された画素に対して、前記参照画像の信号を前記ローカル動きベクトルに基づいて補間した画素値を用いることによって前記予測画像信号を生成する生成手段と、
を含むことを特徴とする請求項１９乃至２２のいずれか１項記載の動画像符号化装置。
前記予測画像生成手段は、輝度成分と色差成分毎又は、各々の色成分毎に、同じ動領域分離マスク又は異なる動領域分離マスクを利用できる予測方法を用いて前記予測画像信号を生成することを特徴とする請求項１９乃至２２のいずれか１項記載の動画像符号化装置。
入力画像信号を構成する各フレームを画素ブロック単位に符号化処理して得られた動画像符号化データを解読し、規定された方法で復号化処理する動画像復号化装置において、
各参照画像の信号毎に動領域と背景領域とを示す二値の動領域分離マスクを生成するマスク生成手段と
前記２つ以上の参照画像の信号の比較或いは前記参照画像の信号毎の二値の前記動領域分離マスクの値により、1つの背景画像信号を生成或いは更新する背景画像生成／更新手段と、
前記動領域分離マスクを用いて、（１）前記動領域に対応する、予測対象画像の第１部分に動き補償処理を行い、（２）前記背景領域に対応する、前記予測対象画像の第２部分には前記背景画像の信号を補間した信号を補填することによって予測画像信号を生成する予測画像信号生成手段と、
を有することを特徴とする動画像復号化装置。
前記マスク生成手段は、前記動領域或いは前記背景領域と判定する基準を、利用可能な２つ以上の参照画像間或いは参照画像内の画素の差分値から導出される値に従って決定する手段を含むことを特徴とする請求項２８記載の動画像復号化装置。
利用可能な２つ以上の参照画像の信号のいずれかと前記予測対象画像間に対して、撮像系の変化に起因する画像間の変化量を補正するためのグローバルベクトルの推定を行う推定手段と、前記グローバルベクトルに関する情報を、シーケンス毎、画像毎、スライス毎、ブロック毎のいずれかの単位で符号化する符号化手段と、を含み、
前記マスク生成手段及び前記背景画像生成／更新手段は、推定された前記グローバルベクトルに基づいて補間した画像を用いて、前記動領域分離マスクを生成するマスク生成手段及び前記背景画像信号を生成或いは更新する背景画像生成／更新手段とで構成される、
ことを特徴とする請求項２８又は２９記載の動画像復号化装置。
前記予測画像生成手段は、
前記動領域分割マスクが動領域と判定された画素に対して、整数精度或いは分数精度の補間画像を生成するフィルタの係数を画素位置ごとに変更する変更手段と、
前記変更したフィルタ係数に関する情報を、シーケンス毎、画像毎、スライス毎、ブロック毎のいずれかの単位で符号化する符号化手段と、
を含むことを特徴とする前記請求項２８乃至３０のいずれか１項記載の動画像復号化装置。
前記マスク生成手段は、生成された前記動領域分離マスクに関して、空間的、或いは時間的に近接する、前記動領域分離マスクの複数の画素の距離に基づいた重みと、前記画素の差分値から導出される値に基づいて、孤立点の除去、不連続点の連結、矩形ブロックへの領域拡大・縮小、エッジ修正、画素補填、画素マッチング等の補正を行う補正手段を含む、ことを特徴とする請求項２８乃至３１のいずれか１項記載の動画像復号化装置。
前記予測画像生成手段は、前記予測対象画像の前記一部のブロックと同位置又は前記整数精度にマッピングしたローカル動きベクトルに基づいて導出された位置のいずれか１つ以上の動領域分割マスクに対して、前記動領域の比率或いは前記背景領域の比率を算出する算出手段と、前記動領域の比率或いは前記背景領域の比率のいずれかが予め定めた規定値より大きいか、小さいか、に従って予測方法を切り替える切替手段と、
を含むことを特徴とする前記請求項２８乃至３１のいずれか１項記載の動画像復号化装置。
前記予測画像生成手段は、
前記動領域分離マスクに基づいて前記動領域と前記背景領域に対してそれぞれ異なる予測方法を適用する第１の予測方法と、前記予測対象画像の前記第１部分のブロックに含まれる前記動領域分離マスクの値が全て動領域とみなして、単一の予測方法で予測する第２の予測方法を持ち、前記第１の予測方法と前記第２の予測方法のいずれの予測方法を用いたかを示す情報を復号化する復号手段を含む、ことを特徴とする前記請求項２８乃至３１のいずれか１項記載の動画像復号化装置。
前記予測画像生成手段は、
前記動領域分離マスクで前記背景領域と判定された画素に対して、前記背景画像信号を前記グローバルベクトルに基づいて補間した画素値を用いることによって前記予測画像信号を生成する生成手段と、
前記動領域と判定された画素に対して、前記参照画像信号を前記ローカル動きベクトルに基づいて補間した画素値を用いることによって前記予測画像信号を生成する生成手段と、
を含むことを特徴とする前記請求項２８乃至３０のいずれか１項記載の動画像復号化装置。
前記予測画像生成手段、輝度成分と色差成分毎又は、各々の色成分毎に、同じ動領域分離マスク又は異なる動領域分離マスクを利用できる予測方法を用いて前記予測画像信号を生成することを特徴とする前記請求項２８乃至３０のいずれか１項記載の動画像復号化装置。