JP2011053951A

JP2011053951A - 画像処理装置

Info

Publication number: JP2011053951A
Application number: JP2009202799A
Authority: JP
Inventors: Kotaro Yano; 光太郎矢野; Satoru Yashiro; 哲八代; Yasuhiro Ito; 靖浩伊藤
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2009-09-02
Filing date: 2009-09-02
Publication date: 2011-03-17
Anticipated expiration: 2029-09-02
Also published as: JP5578816B2

Abstract

【課題】動画像における被写体の認識の精度を向上させることを目的とする。
【解決手段】
画像処理装置が、動画像に係る前フレーム（第１のフレーム）と前フレームに後続する後フレーム（第２のフレーム）との間で、画像情報が変化している領域を抽出し、前フレームでの被写体の検出に関する被写体領域と抽出した領域とに基づいて、後フレームの探索領域を設定し、設定した後フレームの探索領域内で被写体を判別することによって課題を解決する。
【選択図】図１

Description

本発明は、動画像に係る画像処理装置及び画像処理方法に関する。

従来、静止画像から特定の被写体パターンを自動的に検出する画像処理方法は、非常に有用であり、例えば人間の顔の判定に利用されている。このような画像処理方法は、通信会議、マン・マシン・インタフェース、セキュリティ、人間の顔を追跡するためのモニタ・システム、画像圧縮等の多くの分野で使用することができる。

近年、動画像からの被写体の検出が行われており、動画像に対して顔の検出を実時間に行うために、時間的に変化していない領域の判定を行い、その領域を顔の検出処理から除外する方法が開示されている（例えば、特許文献１参照）。

特開２００５−１７４３５２号公報

しかしながら、上述した方法では、動画像における被写体の認識に係る画像処理時間の短縮には効果があるが、動画像における被写体の認識の精度を向上させることが困難である。

本発明はこのような問題点に鑑みなされたもので、動画像における被写体の認識の精度を向上させることを目的とする。

そこで、本発明は、動画像に係る第１のフレームと該第１のフレームに後続する第２のフレームとの間で、画像情報が変化している領域を抽出する抽出手段と、前記第１のフレームでの被写体の検出に関する被写体領域と前記抽出手段で抽出された領域とに基づいて、前記第２のフレームの探索領域を設定する設定手段と、前記設定手段で設定された前記第２のフレームの探索領域内で被写体を判別する判別手段と、を有することを特徴とする。

本発明によれば、動画像における被写体の認識の精度を向上させることができる。

画像処理装置の構成を示す図である。初期フレームに関する処理に係るフローチャートを示す図である。照合パターンの一例を示す図である。後続フレームに関する処理に係るフローチャートを示す図である。

以下、本発明の実施形態について図面に基づいて説明する。

図１の（ａ）は、本実施形態に係る画像処理装置のハードウェア構成を示す図である。画像処理装置は、ＣＰＵ（Central Processing Unit）１、記憶装置２、入力装置３、出力装置４、及び撮像装置５を含んで構成される。なお、各装置は、互いに通信可能に構成され、バス等により接続されている。

ＣＰＵ１は、画像処理装置の動作をコントロールし、記憶装置２に格納されたプログラムの実行等を行う。
記憶装置２は、磁気記憶装置、半導体メモリ等のストレージデバイスであり、ＣＰＵ１の動作に基づき読み込まれたプログラム、長時間記憶しなくてはならないデータ等を記憶する。
本実施形態では、ＣＰＵ１が、記憶装置２に格納されたプログラムの手順に従って処理を行うことによって、画像処理装置における機能及び後述するフローチャートに係る処理が実現される。

入力装置３は、マウス、キーボード、タッチパネルデバイス、ボタン等であり、各種の指示を入力する。
出力装置４は、液晶パネル、外部モニタ、スピーカ等であり、各種の情報を出力する。
撮像装置５は、カムコーダ等であり、CCD（Charge Coupled Devices）、CMOS（Complementary Metal Oxide Semiconductor）等の撮像素子を備える。なお、撮像装置５で撮像された動画像データは、記憶装置２等に記憶される。また、動画像は、一連の複数のフレームを含んで構成され、各フレームに対応する静止画像を有している。

なお、画像処理装置のハードウェア構成は、これに限られるものではない。例えば、画像処理装置は、各種の装置間で通信を行うためのＩ／Ｏ装置を備えてもよい。なお、Ｉ／Ｏ装置は、メモリーカード、ＵＳＢケーブル等の入出力部、有線又は無線による送受信部等である。

図１の（ｂ）は、本実施形態に係る画像処理装置の機能構成を示す図である。画像処理装置の処理及び機能は、画像入力部１０、画像メモリ部２０、画像縮小部３０、照合パターン抽出部４０、輝度補正部５０、顔判別部６０、顔確率分布統合部７０、顔領域出力部８０、変化領域抽出部９０、及び探索領域設定部１００により実現される。

画像入力部１０は、撮像装置５により撮像された動画像データを読込み、動画像データからフレームごとに画像データを抽出し、抽出した画像データを画像メモリ部２０に入力する。なお、画像入力部１０は、動画像データを記憶する記憶媒体から動画像データを読み込む構成でもよい。また、画像入力部１０は、インターネット等を介してサーバ等に記憶された動画像データを読み込む構成でもよい。
画像メモリ部２０は、記憶装置２に設けられる記憶領域である。画像メモリ部２０は、画像入力部１０から出力された画像データを一時的に記憶する。なお、画像メモリ部２０が動画像データを一時的に記憶する構成を採用してもよい。

画像縮小部３０は、画像メモリ部２０に記憶されている動画像データの各フレームに対応する画像データを所定の倍率に従って縮小し、大きさの異なる複数の縮小画像を出力する。
照合パターン抽出部４０は、画像縮小部３０で縮小された画像データから所定の部分領域を照合対象のパターン（いわゆる照合パターン）として抽出する。
輝度補正部５０は、照合パターン抽出部４０で抽出された照合パターンの輝度分布を補正する。
顔判別部６０は、照合パターン抽出部４０で抽出され、輝度補正部５０で補正された照合パターンが顔パターンであるか非顔パターンであるかを判別するための顔確率を出力する。

顔確率分布統合部７０は、複数の縮小画像から抽出された各部分領域に対応した顔確率の分布を保持し、複数のフレーム間の顔確率の分布を統合する。
顔領域出力部８０は、顔確率分布統合部７０による統合の結果に基づいて顔と判別される照合パターンに対応する部分領域を出力装置４等に出力する。

変化領域抽出部９０は、被写体の動きにより、フレーム間での画像データ（画像情報）が変化する領域（変化領域）を出力する。
探索領域設定部１００は、前フレームにおける顔確率分布統合部７０の結果及び変化領域抽出部９０で抽出されたフレーム間の変化領域から後フレームにおける探索領域を設定する。

図２は、画像処理装置の処理に係るフローチャートを示す図である。図２を参照して、初期フレームにおける画像処理装置の動作について説明する。

まず、画像入力部１０は、処理の対象とする画像データを画像メモリ部２０に入力する（ステップＳ１０１）。
ここで、入力される画像データは、例えば８ビットの画素により構成される２次元配列のデータであり、Ｒ、Ｇ、Ｂ、３つの面により構成される。このとき、画像データがＪＰＥＧ（Joint Photographic Experts Group）等の方式により圧縮されている場合は、圧縮に対応する解凍方式に従って画像データを解凍し、ＲＧＢ各画素により構成される画像データとする。
さらに、本実施形態では、画像入力部１０は、ＲＧＢ各画素により構成される画像データに含まれる輝度データより、輝度成分からなる輝度画像データ（例えば、色差成分を排した画像データ）を生成し、以後の処理に適用する。なお、輝度画像データは、画像メモリ部２０に記憶される。また、画像データとしてＹＣｒＣｂのデータを入力する場合は、Ｙ成分をそのまま輝度データとして採用し、輝度画像データが生成されてもよい。

次に、画像縮小部３０は、輝度画像データを画像メモリ部２０から読み込み、所定の倍率に縮小した輝度画像データ（いわゆる縮小輝度画像データ）を生成する（ステップＳ１０２）。本実施形態では、所定の倍率に縮小した輝度画像データを生成して、複数のサイズの輝度画像データに対して順次検出を行う構成（例えば、参考文献１を参照のこと。）を採用しているので、様々な大きさの顔を検出できる。例えば、画像縮小部３０は、倍率が1.2倍程度異なる画像への縮小処理を複数回行う。
参考文献１：Rowley et al, "Neural network-based face detection", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.20 , NO.1, JANUARY 1998

ここで、参考文献１では、ニューラルネットワークにより画像中の顔パターンを検出する方法が提案されている。以下、参考文献１による顔検出の方法について簡単に説明する。
まず、顔の検出を対象とする画像データがメモリに読み込まれ、顔と照合する所定の領域が読み込まれた画像から切り出される。そして、切り出された領域の画素値の分布を入力としてニューラルネットワークによる演算で一つの出力が得られる。このとき、ニューラルネットワークの重み及び閾値が、膨大な顔画像パターンと非顔画像パターンとにより予め学習されている。例えば、ニューラルネットワークの出力が０以上なら顔、それ以外は非顔であると判別される。そして、ニューラルネットワークの入力である顔と照合する画像パターンの切り出し位置が、例えば、画像全域から縦横順次に走査されていくことにより、画像中から顔が検出される。また、様々な大きさの顔の検出に対応するため、読み込んだ画像が所定の割合で順次縮小され、それに対して前述した顔検出の走査が行われるようにしている。

次に、照合パターン抽出部４０は、縮小された輝度画像データから所定の大きさの部分領域を照合パターンとして抽出し、設定する（ステップＳ１０３）。
ここで、図３を参照して、照合パターンについて説明する。
図３に示すＡの列は、画像縮小部３０で縮小された夫々の縮小輝度画像を示し、ステップＳ１０３では、夫々の縮小輝度画像に対して所定の大きさの部分領域（例えば、矩形領域）が切り出される。すなわち、各縮小輝度画像には、同じ大きさの矩形領域が設定され、矩形領域が照合パターンとして順次抽出される。
また、図３に示すＢの列は、夫々の縮小輝度画像から縦横順次に走査を繰り返していく途中の切り出しの様子を示している。図示するように、縮小率の大きな画像から照合パターンを切り出して顔の判別を行う場合には、画像に対して大きな領域において顔の検出を行うことになる。

次に、輝度補正部５０は、照合パターン抽出部４０で切り出された部分領域の輝度をその分布をもとに正規化する（ステップＳ１０４）。例えば、輝度補正部５０は、ヒストグラム平滑化等の輝度補正を行う。撮像される被写体パターンがその照明条件によって輝度分布が変わるとしても、輝度を補正することにより、被写体における照合の精度が劣化するのを極力低減できる。

次に、顔判別部６０は、照合パターン抽出部４０で抽出され、輝度補正部５０で補正された照合パターンが顔パターンであるか非顔パターンであるかを判別すると共に、顔パターンであるか否か示す指標として顔確率を算出する（ステップＳ１０５）。
ここで、顔判別の方法は、公知の方法（例えば、参考文献１、２、３を参照のこと。）を用いてもよい。
参考文献２：Schneiderman and Kanade, "A statistical method for 3D object detection applied to faces and cars", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR2000)
参考文献３：Viola and Jones, "Rapid Object Detection using Boosted Cascade of Simple Features", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR'01)

ここで、参考文献２では、照合パターンの顔確率を複数の見え方に関する統計的分布の統合モデルとして捉えて判別に係る処理を行っている。
また、参考文献３では、処理の高速化に着目し、AdaBoostを使って多くの弱判別器を有効に組合せて顔判別の精度を向上させる一方、夫々の弱判別器をHaarタイプの矩形特徴量で構成し、矩形特徴量の算出を、積分画像を利用して高速に行っている。また、AdaBoost学習によって得た判別器を直列に繋ぎ、カスケード型の顔検出器を構成するようにしている。このカスケード型の顔検出器は、まず前段の単純な判別器（すなわち計算量のより少ない判別器）を使って明らかに顔でないパターンの候補をその場で除去する。そして、それ以外の候補に対してのみ、より高い識別性能を持つ後段の複雑な判別器（すなわち計算量のより多い判別器）を使って顔であるか否かの判定を行なう。このように、すべての候補に対して複雑な判定を行う必要がないので処理が高速となる。

例えば、本実施形態では、ニューラルネットワークの出力値を顔確率の値として出力するようにする。ただし、顔確率として出力する値の精度を上げるために、ニューラルネットワークの出力値そのものでなく、ニューラルネットワークの出力値と顔確率の値との関係をテーブルに予め記憶しておき、テーブルを参照して顔確率の値を出力するようにしてもよい。なお、テーブルは、十分な数の顔画像パターンを予め用意し、用意したパターンのニューラルネットワークの出力値の統計的分布に基づいて作成することができる。
また、顔判別部として複数の判別器によって顔の判別を行う場合には、複数の判別器の出力値の加重平均等を算出して顔確率の値を出力するようにしてもよい。

そして、顔確率分布統合部７０は、顔判別部６０で得た部分領域の顔確率を、予め記憶されている顔確率分布における対応する部分領域の値と統合して、顔確率分布を更新する（ステップＳ１０６）。
例えば、縮小倍率ｓ、切り出し位置ｘ、ｙにおける顔判別部６０で得た顔確率をP（s,x,y）とする。ここで、顔確率分布における、縮小倍率ｓ、切り出し位置ｘ、ｙに対応する値（この場合、初期値で所定の値が設定されている）をP_OLD（s,x,y）とすると、統合後の顔確率分布における値P_NEW（s,x,y）は、以下の式（１）により算出される。ただし、αは、所定の統合パラメータであり、0＜α＜１を満たす。

P_NEW（s,x,y）＝α・P（s,x,y）＋（1−α）・P_OLD（s,x,y）・・・（１）

ここで、ステップＳ１０３からステップＳ１０６までの処理が、画像縮小部３０の出力である各縮小輝度画像に対して図３に示すように縦横順次に走査が繰り返される。また、倍率が異なる縮小処理が順次適用され、ステップＳ１０２からステップＳ１０６までの処理が繰り返される。

そして、顔領域出力部８０は、予め定められた複数種類の倍率での全ての縮小輝度画像において探索が終了した後、顔確率分布統合部７０によって更新された顔確率分布における値が所定の値以上で、かつ、顔確率分布内で極大値（局所的な極大値であってもよい。）をとる領域を顔領域（被写体領域）として出力装置４等に出力する（ステップＳ１０７）。換言するならば、顔確率分布が縮小輝度画像ごとに設けられているので、顔領域出力部８０は、縮小輝度画像ごとに顔領域を出力装置４等に出力し得る。

次に、図４を参照して、初期フレームの検出結果を用いて行う後続フレームにおける画像処理装置の動作について説明する。

まず、画像入力部１０は、初期フレーム（例えば、第１のフレーム）に後続する後続フレーム（例えば、第２のフレーム）に対応する輝度画像データを画像メモリ部２０に入力する（ステップＳ２０１）。

次に、抽出手段の一例である変化領域抽出部９０は、被写体の動きによってフレーム間で輝度データが変化する領域（変化領域）を出力する（ステップＳ２０２）。
例えば、変化領域抽出部９０は、各フレームの輝度画像の輝度値の差分演算を行い、輝度値の差が所定の閾値を超える画素が含まれる領域を変化領域とする。
より詳細には、変化領域抽出部９０は、変化領域の画素と変化領域以外の領域の画素とを識別するために２値化処理を行う。さらに、画像ノイズの影響を低減するために、変化領域抽出部９０は、２値化処理後の輝度画像データを所定の近傍領域の輝度画像データをもとに平滑化処理を繰り返し、所定面積以上の変化領域に統合していく。なお、変化領域抽出部９０は、例えば、２値化処理後の輝度画像データに対してモルフォロジー的オープニング処理を行って変化領域を算出するようにしてもよい。
また、変化領域抽出部９０は、各フレームの輝度画像の輝度値の差分をもとに変化領域を算出する構成に加えて又は代えて、各フレームのカラー画像から肌色確率の分布を抽出し、各フレームにおける肌色確率の差分をもとに変化領域を算出するようにしてもよい。なお、肌色確率は、肌色の確率分布を表した混合ガウスモデルにより行う方法（例えば、参考文献４を参照のこと。）等を適用して算出する。
参考文献４：Jones and Rehg, "Statistical color models with application to skin detection", International Journal of Computer Vision, VOL.46, NO.1, JANUARY 2002

また、固定カメラによって撮影された動画像の場合は、以上の簡単な処理により変化領域の抽出が可能であるが、カメラが固定されていない場合には、変化領域が必ずしも動被写体領域に対応しないので、以下の処理によって領域を抽出するようにしてもよい。この場合、まず、変化領域抽出部９０は、複数フレームの輝度画像データから画像全域で動きベクトルの抽出を行う。そして、変化領域抽出部９０は、動きベクトルの分布をもとにカメラの運動パラメータを算出する。さらに、変化領域抽出部９０は、動きベクトルの分布から算出したカメラの運動パラメータに相当する移動量の補正を行い、カメラの動きと分離した被写体の動きによる動き成分を抽出する。そして、変化領域抽出部９０は、この被写体の動きによる動き成分が所定の値以上の領域を変化領域とする。さらに、変化領域抽出部９０は、抽出された変化領域に対して、前述したような画像ノイズの影響を考慮した平滑化の処理を行う。
なお、複数フレームの輝度画像データから動きベクトルを抽出して、カメラの運動パラメータを算出する方法については、公知の方法（例えば、参考文献５を参照のこと。）を用いることができる。
参考文献５：武川、宮島，「時系列画像からの３次元運動と形状解析」，コンピュータビジョン技術評論と将来展望，新技術コミュニケーションズ（１９９８）

次に、設定手段の一例である探索領域設定部１００は、前フレームにおける顔領域出力部８０の結果（例えば顔領域）及び変化領域抽出部９０で抽出されたフレーム間の変化領域から後フレームにおける探索領域を設定する（ステップＳ２０３）。
より具体的に説明すると、まず、探索領域設定部１００は、顔領域出力部８０で出力された領域を第１の探索領域として抽出する。そして、探索領域設定部１００は、変化領域抽出部９０で抽出されたフレーム間の変化領域を第２の探索領域として抽出する。ここで、縮小処理が行われている場合には、探索領域設定部１００は、縮小処理により得られた輝度画像における領域に同様の縮小処理により変化領域を縮小した領域を設定し、第２の探索領域として抽出する。そして、探索領域設定部１００は、第１の探索領域と第２の探索領域との論理和を探索領域として設定する。
なお、第1の探索領域として用いる領域（例えば顔領域）は、顔確率分布統合部７０の出力である顔確率分布における値が所定の値以上の領域を全て用いるようにしてもよい。また、第1の探索領域は、顔領域に対する所定の近傍領域を含めた領域を出力するようにしてもよい。例えば、近傍領域は、顔領域に接する部分領域である。

次に、画像縮小部３０は、輝度画像データを画像メモリ部２０から読み込み、所定の倍率に縮小した輝度画像データを生成する（ステップＳ２０４）。

次に、照合パターン抽出部４０は、縮小された輝度画像データから抽出する所定の大きさの部分領域を設定し（ステップＳ２０５）、探索領域設定部１００で設定された探索領域に属する領域であるか否かを判定する（ステップＳ２０６）。ここで、探索領域に属する領域とは、探索領域の一部又は全部を含む部分領域をいう。

そして、ステップＳ２０５で設定した部分領域が探索領域に属する場合には、照合パターン抽出部４０は、探索領域に属する部分領域を照合パターンとして抽出し、設定する（ステップＳ２０７）。ステップＳ２０５で設定した部分領域が探索領域に属さない場合には、ステップＳ２０５に処理が戻り、縦横順次に走査が繰り返される。なお、一の輝度画像又は一の縮小輝度画像について走査が終了した場合には、ステップＳ２０４に処理が戻る。

次に、輝度補正部５０は、ステップＳ１０４の処理と同様に、照合パターン抽出部４０で切り出された部分領域の輝度をその分布をもとに正規化する（ステップＳ２０８）。

次に、判別手段の一例である顔判別部６０は、ステップＳ１０５の処理と同様に処理を行う（ステップＳ２０９）。すなわち顔判別部６０は、照合パターン抽出部４０で抽出され、輝度補正部５０で補正された照合パターン（探索領域内で判別される被写体）が顔パターンであるか非顔パターンであるかを判別すると共に、顔確率を算出する。

そして、統合手段の一例である顔確率分布統合部７０は、ステップＳ１０６の処理と同様に処理を行う（ステップＳ２１０）。すなわち顔確率分布統合部７０は、顔確率（後フレームの探索領域内での被写体の判別結果）と前フレームまでで算出した顔確率分布の部分領域が対応する値（後フレームの探索領域に対応する領域での被写体の判別結果）と統合して顔確率分布を更新する。顔判別部６０で得た顔確率をP（s,x,y）、顔確率分布における値（この場合、前フレームまでの顔確率分布の統合結果）をP_OLD（s,x,y）とすると、統合後の顔確率分布における値P_NEW（s,x,y）は、上述の式（１）により算出される。

以上、ステップＳ２０５からステップＳ２１０までの処理が、画像縮小部３０の出力である各縮小輝度画像に対して縦横順次に走査が繰り返される。また、倍率が異なる縮小処理が順次適用され、ステップＳ２０４からステップＳ２１０までの処理が繰り返される。すなわち、縮小輝度画像ごとに探索領域として設定した領域内において顔パターンの探索が行われる。

そして、出力手段の一例である顔領域出力部８０は、ステップＳ１０７の処理と同様に処理を行う（ステップＳ２１１）。すなわち、顔領域出力部８０は、統合された結果に基づいて被写体に関する領域を出力する。より具体的には、顔領域出力部８０は、顔確率分布統合部７０によって更新された顔確率分布における値が所定の値以上で、かつ、顔確率分布内で極大値をとる領域を顔領域として出力装置４等に出力する。
なお、ステップＳ２０１からステップＳ２１１までの処理は、動画像データにおける全フレームにて終了するまで順次繰り返される。

なお、被写体の動きがフレーム間隔に比べ遅い場合には、必ずしも全フレームにおいて処理を行わなくてもよく、所定フレーム間隔で検出処理（例えば、参考文献６を参照のこと。）を行うようにしてもよい。
参考文献６：Mikolajczyk et al, "Face detection in a video sequence - a temporal approarch", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR'01)

ここで、参考文献６では、参考文献２に記載の手法をもとに、所定フレームの顔検出結果から次フレームの顔の状態を予測し、それに顔の判別処理を適用して顔検出結果を更新する方法を提案している。また、５フレームごとに全探索を行う方法等を提案している。

また、本実施形態では、被写体パターンとして人物の顔を検出するようにしたが、人物とは異なるその他の被写体のパターンを採用してもよい。

＜その他の実施形態＞
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

以上、上述した各実施形態によれば、動画像における被写体の認識の精度を向上させることができるようになる。
つまり、各実施形態の構成によれば、高速、高精度に動画像から所定の被写体を検出する装置を提供することができる。すなわち、被写体領域とフレーム間変化領域とに探索領域を絞ることにより高速化が実現できる。さらに、探索領域として被写体領域を含むため、フレーム間の時間的変化が小さい場合にも対応できる。また、探索領域としてフレーム間の変化領域も含むため、新しい被写体の出現にも対応できる。さらに、複数フレームでの検出結果を統合するので、フレームごとに被写体検出を行う場合に比べて安定して高精度の検出が行える。

以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１０画像入力部、２０画像メモリ部、３０画像縮小部、４０照合パターン抽出部、５０輝度補正部、６０顔判別部、７０顔確率分布統合部、８０顔領域出力部、９０変化領域抽出部、１００探索領域設定部

Claims

動画像に係る第１のフレームと該第１のフレームに後続する第２のフレームとの間で、画像情報が変化している領域を抽出する抽出手段と、
前記第１のフレームでの被写体の検出に関する被写体領域と前記抽出手段で抽出された領域とに基づいて、前記第２のフレームの探索領域を設定する設定手段と、
前記設定手段で設定された前記第２のフレームの探索領域内で被写体を判別する判別手段と、
を有する、画像処理装置。
前記判別手段により前記第２のフレームの探索領域内で被写体が判別された結果と、前記第２のフレームの探索領域に対応する前記第１のフレームの領域で被写体が判別された結果と、を統合する統合手段と、
前記統合手段で統合された結果に基づいて、前記第２のフレームでの被写体の検出に関する被写体領域を出力する出力手段と、
を更に有する、請求項１記載の画像処理装置。
動画像に係る第１のフレームと該第１のフレームに後続する第２のフレームとの間で、画像情報が変化している領域を抽出する抽出ステップと、
前記第１のフレームでの被写体の検出に関する被写体領域と前記抽出ステップで抽出された領域とに基づいて、前記第２のフレームの探索領域を設定する設定ステップと、
前記設定ステップで設定された前記第２のフレームの探索領域内で被写体を判別する判別ステップと、
を有する、画像処理方法。
動画像に係る第１のフレームと該第１のフレームに後続する第２のフレームとの間で、画像情報が変化している領域を抽出する抽出ステップと、
前記第１のフレームでの被写体の検出に関する被写体領域と前記抽出ステップで抽出された領域とに基づいて、前記第２のフレームの探索領域を設定する設定ステップと、
前記設定ステップで設定された前記第２のフレームの探索領域内で被写体を判別する判別ステップと、
をコンピュータに実行させることを特徴とするプログラム。