JP2012100082A

JP2012100082A - 画像処理装置、画像処理方法及びプログラム

Info

Publication number: JP2012100082A
Application number: JP2010246068A
Authority: JP
Inventors: Satoru Yashiro; 哲八代
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2010-11-02
Filing date: 2010-11-02
Publication date: 2012-05-24

Abstract

【課題】設置したカメラにおいて被写体検出の誤検出を抑制する。
【解決手段】画像から所定の被写体を検出する被写体検出手段３０２と、被写体検出手段３０２の誤検出情報を収集する誤検出収集手段３０３と、被写体検出手段３０２で被写体を検出した検出結果と誤検出情報とを照合して検出結果が誤検出であるか否かを判定する誤検出判定手段３０７とを備え、誤検出情報は、画像中の位置情報を含むものである。
【選択図】図３

Description

本発明は、画像処理装置等に関し、特に所定の場所に設置されたカメラ画像から人物などの被写体を検出する画像処理装置等に関するものである。

近年、店舗の天井や街頭、工場などにおいて、防犯などのセキュリティー向上のために、監視カメラの設置が急速に普及している。また、監視カメラにより、通行人数の計測や人流解析などマーケティング目的で使用することも提案されている。

画像から顔などの被写体を検出する技術として、ＡｄａＢｏｏｓｔを使って多くの弱判別器を有効に組み合わせて顔判別の精度を向上させる一方、夫々の弱判別器をＨａａｒタイプの矩形特徴量で構成している。しかも、矩形特徴量の算出を、積分画像を利用して高速に行っている。また、ＡｄａＢｏｏｓｔ学習によって得た判別器を直列に繋ぎ、カスケード型の顔判別器を構成し、縦横２４画素からなる画像パターンが顔であるか否かを判別する。入力画像から顔を検出するには、後述する図５に示すように、サブウィンドウを画像全域から縦横順次に走査し、サブウィンドウ内の画像パターンを判定していくことにより画像中から顔を検出する。

また、監視カメラのように設置されたカメラで映像からの物体を認識する技術として、下記の特許文献１が開示されている。この特許文献１は、背景差分により変化のある領域を絞り込み、動領域を検出した後、その領域を詳細に評価して個別の物体を識別する技術である。更に、背景差分には、符号化情報を元にすることが特徴で、これによって高速な処理が可能である。

特開２００３−１５７４４０号公報

従来の方法で生成した判別器による被写体検出では、誤検出を避けることはできない。
また、特許文献１のような背景差分法を組み合わせることで、被写体を検出する領域を変化領域だけに絞り込むことが出来、背景からの誤検出を削減できる。しかしながら、可動物がある領域での誤検出は、避けることができない。

本発明は、このような問題点に鑑みてなされたものであり、所定の映像から、可動物がある領域でも誤検出を低減し、精度よく被写体を検出することが出来る画像処理装置等を提供することを目的とする。

前述の目的を達成するために、本発明は、画像から所定の被写体を検出する被写体検出手段と、前記被写体検出手段の誤検出情報を収集する誤検出収集手段と、前記被写体検出手段で前記被写体を検出した検出結果と前記誤検出情報とを照合して前記検出結果が誤検出であるか否かを判定する誤検出判定手段とを備え、前記誤検出情報は、前記画像中の位置情報を含むことを特徴とする画像処理装置等を提供する。

本発明によれば、予め誤検出辞書を生成し、被写体として判定された箇所の画像と照合することで誤検出判定を行なうことが出来る。従って、設置されたカメラ映像から精度よく被写体を検出することが出来る。即ち、所定の映像から、可動物がある領域でも誤検出を低減し、精度よく被写体を検出することが出来る。

本発明の実施形態に係る画像処理装置の設置例を示す模式図である。本発明の実施形態に係る画像処理装置のハードウェア構成の一例を示すブロック図である。本発明の実施形態に係る画像処理装置の機能構成の一例を示すブロック図である。本発明の実施形態を示し、誤検出辞書生成における処理の流れの一例を示すフローチャートである。本発明の実施形態を示し、図３の被写体検出手段の処理の一例を示す模式図である。本発明の実施形態を示し、図３の位置統合手段の処理の一例を示す模式図である。本発明の実施形態を示し、人数カウント処理における処理の流れの一例を示すフローチャートである。本発明の実施形態に係る画像処理装置のハードウェア構成の一例を示すブロック図である。本発明の実施形態を示し、人物の軌跡の生成とカウントの一例を示す模式図である。本発明の実施形態を示し、誤検出辞書のデータ形式の一例を示す模式図である。

以下に、図面を参照しながら、本発明を実施するための形態（実施形態）について説明する。

本実施形態は移動する被写体を検出し、追跡し、所定のラインを通過した人数をカウントするシステムである。

図１は、本発明の実施形態に係る画像処理装置の設置例を示す模式図である。
図１において、１００は、画像処理システムの全体の一例である。１０１は、通路の天井であり、１０２は、通路の床である。１０３は、通路を通行している人物である。１０４は、撮像部（カメラ）であり、人物１０３を斜め上から撮影できるように、天井１０１に設置してある。１０５は、ＬＡＮケーブル、又は、同軸ケーブルであり、撮像部１０４で撮像される映像を送信する。１０６は、映像を解析し、計数する画像処理装置となるＰＣである。

図２は、本発明の実施形態に係る画像処理装置のハードウェア構成の一例を示すブロック図である。
図２において、１０６−１は、画像処理装置の全体の一例である。２０１は、ＣＰＵであり、本実施形態の画像処理装置１０６−１における各種制御を実行する。２０２は、ＲＯＭであり、本画像処理装置１０６−１の立ち上げ時に実行されるブートプログラムや各種データを格納する。２０３は、ＲＡＭであり、ＣＰＵ２０１が処理するための制御プログラムを格納するとともに、ＣＰＵ２０１が各種制御を実行する際の作業領域を提供する。２０４は、キーボード、２０５は、マウスであり、ユーザによる各種入力操作環境を提供する。

２０６は外部記憶装置であり、ハードディスクやフレキシブルディスク、光ディスク、磁気ディスク、光磁気ディスク、磁気テープ等で構成される。ただし、外部記憶装置２０６は、制御プログラムや各種データを全てＲＯＭ２０２に持つようにすれば、必ずしも必要な構成要素ではない。２０７は、表示装置であり、ディスプレイなどで構成され、結果等をユーザに対して表示する。２０８は、ネットワークインターフェース（ネットワークＩ／Ｆ）であり、ネットワーク上の撮像部１０４とＬＡＮケーブル１０５を介した通信を可能とする。２０９は、ビデオインターフェース（ビデオＩ／Ｆ）であり、撮像部１０４と同軸ケーブル（１０５）を介したフレーム画像の取り込みを可能とする。また、２１０は、上記の各構成を接続するバスである。

図３は、本発明の実施形態に係る画像処理装置の機能構成の一例を示すブロック図である。
３０１は、撮像手段である。撮像手段３０１は、所定の場所に設置されたカメラ１０４により撮像し、フレーム画像を取得する。フレーム画像は、ＬＡＮケーブル１０５を介してｈｔｔｐプロトコルのパケットデータとして送られ、画像処理装置（ＰＣ）１０６上のネットワークインターフェース（ネットワークＩ／Ｆ）２０８を介して取得する。或いは、１０５を同軸ケーブルで構成し、画像処理装置（ＰＣ）１０６上のビデオインターフェース（ビデオＩ／Ｆ）２０９で取得するようにしてもよい。また、図１のカメラ１０４は、パン、チルト、ズームなどの姿勢が制御可能であってもよい。

３０２は、被写体検出手段であり、フレーム画像から所定の被写体である人物を検出するものである。
３０３は、被写体検出手段３０２の誤検出情報を収集する誤検出収集手段である。誤検出収集手段３０３は、誤検出辞書を作成時、撮像手段３０１により撮影し、被写体検出手段３０２によって被写体と判定された場合に、その画像上の位置と画像情報を収集するものである。この誤検出収集手段３０３は、３０５の位置統合手段を含み構成されている。

３０４は、類似度判定手段であり、画素情報から画像特徴量を求め、画像特徴量の類似度を求める。
３０５は、位置統合手段であり、類似度判定手段３０４により類似している誤検出情報について、位置情報を統合して統合誤検出情報を生成するものである。

３０６は、誤検出辞書記憶手段であり、誤検出収集手段３０３によって収集された誤検出情報を含む誤検出辞書を外部記憶装置２０６に蓄積する。また、３０７の誤検出判定手段で使用する時には、誤検出情報の全部または一部をＲＡＭ２０３に転送しておく。

３０７は、誤検出判定手段であり、人数計数時において、被写体検出手段３０２が被写体と判定した場合に、誤検出辞書記憶手段３０６と照合を行って正しい被写体か否かを判定する。即ち、誤検出判定手段３０７は、被写体検出手段３０２で被写体を検出した検出結果と誤検出情報とを照合して検出結果が誤検出であるか否かを判定する。
３０８は、被写体追跡手段であり、被写体検出手段３０２によって検出され、誤検出判定手段３０７によって誤検出でないと判定された被写体を時間順に追跡し、同一の人物の軌跡を行うものである。

３０９は、計数手段であり、被写体追跡手段３０８によって生成された被写体の軌跡が所定の条件を満たしているかどうかを判定することにより、被写体を計数するものである。
３１０は、表示手段であり、表示装置２０７で構成され、計数手段３０９の結果をユーザへ表示するものである。

図３において、撮像手段３０１は、図１の撮像部（カメラ）１０４に相当するものである。また、被写体検出手段３０２、誤検出収集手段３０３、類似度判定手段３０４、誤検出判定手段３０７、被写体追跡手段３０８及び計数手段３０９は、例えば、図２のＣＰＵ２０１及びＲＯＭ２０２或いは外部記憶装置２０６のプログラムから構成されている。また、誤検出辞書記憶手段３０６は、図２のＲＡＭ２０３或いは外部記憶装置２０６から構成されている。また、表示手段３１０は、図２の表示装置２０７から構成されている。

次に、誤検出辞書記憶手段３０６に記憶される誤検出辞書のデータ形式について説明する。
図１０は、本発明の実施形態を示し、誤検出辞書のデータ形式の一例を示す模式図である。

誤検出辞書のデータ形式は、誤検出情報と統合誤検出情報が夫々の個数とともに格納される。即ち、誤検出辞書のデータ形式は、図１０に示すように、１０１０で示す誤検出数と、１０２０で示す誤検出情報と、１０３０で示す統合誤検出情報数と。１０４０で示す統合誤検出情報で構成されている。

また、誤検出情報１０２０は、１０２１で示す画像情報と、１０２４で示す位置情報、及び、１０２６で示す撮影情報から構成される。誤検出情報１０２０の画像情報１０２１は、１０２２で示す画素情報と１０２３で示す画像特徴量が格納される。画素情報１０２２は、検出したサブウィンドウ内の領域の画素値である。ここでは、サブウィンドウよりも広い領域の画素値を格納してもよい。また、画像特徴量１０２３は、画素情報１０２２に基づいて後述する所定の変換式によって変換されたベクトル値が格納される。誤検出情報１０２０の位置情報１０２４は、１０２５で示す検出位置、具体的には、検出した入力画像内で左上を原点とする座標でサブウィンドウの中心座標と中心座標から頂点までの長さが格納される。また、撮影情報１０２６には、パンチルトズームなどのカメラの姿勢情報などの撮像手段３０１の情報が格納される。

また、統合誤検出情報１０４０は、複数の誤検出情報を１つにまとめた結果生成されるものである。統合誤検出情報１０４０は、１０４１で示す画像情報、１０４４で示す位置情報から構成される。統合誤検出情報１０４０の画像情報１０４１は、１０４２で示す代表画素情報と、１０４３で示す代表画像特徴量が格納される。統合誤検出情報１０４０の位置情報１０４４は、１０４５で示す領域情報が格納される。代表画素情報１０４２、代表画像特徴量１０４３、位置情報１０４４は、それぞれ、統合する誤検出情報の画素情報、画像特徴量、位置情報に基づいて生成した情報を格納する。

次に、本実施形態における動作について、運用の準備時に行なう誤検出辞書生成処理と、通常の運用である人数カウント処理の２つを説明する。

誤検出辞書生成処理は、カメラ（１０４）を設置して画角などの調整を行った後に行なう処理である。
図４は、本発明の実施形態を示し、誤検出辞書生成における処理の流れの一例を示すフローチャートである。

図４の処理を開始すると、まず、ステップＳ４０１において、画像処理装置１０６（例えば、被写体検出手段３０２）は、撮像手段３０１よりフレーム画像を取得する。ここで読み込まれた画像データは、例えば、８ビットの画素により構成される２次元配列のデータであり、Ｒ、Ｇ、Ｂ、３つの面により構成される。このとき、画像データがＪＰＥＧ等の方式により圧縮されている場合には、画像データを所定の解凍方式にしたがって解凍し、ＲＧＢ各画素により構成される画像データとする。ここで、この画像データをグレー変換して輝度画像データとしてもよい。また、この画像データから縦方向、横方向の微分画像を生成してエッジの方向や角度を抽出し、その情報を用いてもよい。また、この画像データにコントラストや平均輝度などの正規化処理を行ってもよい。

誤検出辞書生成のためには、被写体がいないことがわかっている映像を利用することが望ましい。被写体が映っていた場合には、不図示の被写体位置指定手段により被写体の位置を指示し、被写体がいない領域で発生した誤検出を収集すればよい。

続いて、ステップＳ４０２において、被写体検出手段３０２は、ステップＳ４０１で取得したフレーム画像中から人物１０３を検出する。人物の検出は、一般的な方法を用いてよい。

また、その他の方法もある。具体的には、画像パターンからエッジの方向と強さを算出し、方向ごとのエッジ強さヒストグラムを求めて、ビンごとのエッジ強さからなる特徴ベクトルを得る。そして、この特徴ベクトルからサポートベクターマシンによって被写体か否かを判別する判別器を得る。
図５は、本発明の実施形態を示し、図３の被写体検出手段３０２の処理の一例を示す模式図である。５０１〜５０３は、サブウィンドウであり、５０４〜５０６は、照合する被写体領域の画像である。
図５に示すように、サブウィンドウ５０１〜５０３を画像全域から縦横順次に走査し、サブウィンドウ内の画像パターンを判別していくことにより、画像中から被写体領域の画像５０４〜５０６を検出することができる。

ここで、再び、図４の説明に戻る。
続いて、ステップＳ４０３において、例えば誤検出収集手段３０３は、被写体検出手段３０２が被写体と判定した場合に、誤検出情報１０２０を誤検出辞書記憶手段３０６に蓄積する。
誤検出情報１０２０のうちの画像特徴量１０２３は、画像パターンの画素情報を縦横に格子状に複数のブロック分割を行い、夫々のブロックに関して画素の平均値を求め、全ブロックで合成した特長ベクトルである。また、ブロックごとに画素値のヒストグラムを求め、ビンごとの画素数を特徴ベクトルとしてもよい。また、被写体検出手段３０２で求めた矩形特徴量やエッジ強さヒストグラムの全部または一部を利用してもよい。

誤検出情報１０２０のうちの位置情報１０２４は、カメラ姿勢情報を用いて、検出位置の座標を、入力画像を基準とする座標から、撮影可能な視野範囲を基準とする座標へ変換すればよい。そして、あらゆる姿勢における誤検出を収集すればよい。ここで、座標変換方法の詳細は、姿勢制御可能なカメラを用いて撮影した複数枚の画像を球面に投影することによって、等角座標を持つパノラマ画像を作成する方法でよい。パノラマ画像とは、撮影可能な範囲を１枚の画像に合成した画像である。これによって、カメラの姿勢情報があれば、入力画像中の任意の座標をパノラマ画像での座標へ変換することが可能である。

続いて、ステップＳ４０４において、画像処理装置１０６は、キーボード２０４やマウス２０５を介してユーザからの終了の指示があるまで、ステップＳ４０１〜Ｓ４０４の処理を繰り返す。

ステップＳ４０４において、ユーザからの終了の指示があると、続いて、ステップＳ４０５において、類似度判定手段３０４は、誤検出情報をクラスタリングする。即ち、類似度判定手段３０４によって、各誤検出情報間の類似度を求める。その後、類似度判定手段３０４は、類似した誤検出情報をグルーピングする。

誤検出情報間の類似度は、簡単には画像特徴量のユークリッド距離によって求める。また、類似度判定のその他の方法としては、格子状に分割したブロックのうちの一部を除外し、残りのブロックから得られた特徴量でユークリッド距離を求めてもよい。このとき、除外するブロックは、対応する各ブロック間で個別に類似度を求め、類似度が相対的に低い所定数のブロックとすればよい。こうすることによって、画像パターンの一部に発生するオクルージョンに対してロバストにすることができる。

続いて、ステップＳ４０６において、類似度の高い複数の誤検出情報を１つにまとめ、統合誤検出情報１０４０を生成する。
統合誤検出情報１０４０の画像情報１０４１は、不図示の画像統合手段（或いは誤検出収集手段３０３）によって生成された代表画素情報１０４２と代表画像特徴量１０４３が格納される。代表画素情報１０４２は、誤検出情報１０２０を１つにまとめる際、中央値に最も近い誤検出情報の画素情報１０２２を採用するか、まとめる誤検出情報の画素情報１０２２の平均を求めて格納する。代表画像特徴量１０４３は、代表画素情報１０４２と同様に中央値に最も近い画像特徴量か平均画像特徴量を求めて格納する。統合誤検出情報１０４０の位置情報１０４４は、複数の位置情報を統合した領域情報１０４５を格納する。

位置情報の統合方法について図６を用いて説明する。
図６は、本発明の実施形態を示し、図３の位置統合手段３０５の処理の一例を示す模式図である。

図６（ａ）は、誤検出の例である。６０１はフレーム画像であり、６０９はフレーム画像に映った映像で、左右に移動することにより開閉する扉である。６０２の３つの×は、撮像手段３０１によって一定時間撮影して発生した３箇所の誤検出であり、誤検出した被写体の中心の位置を示す。撮影時間内に扉６０９が開閉した時に誤検出が発生したため、各々の誤検出位置の画像特徴は類似しており、統合の対象となったものである。

図６（ｂ）〜（ｄ）は、領域情報の例を示したものである。
図６（ｂ）のように、各々の誤検出の位置を中心とした所定半径の円６０３に外接する矩形領域６０４を領域情報とする。その他の方法としては、図６（ｃ）のように、各々の統合する位置を中心とする複数の正方形６０５、６０６及び６０７でもよい。また、図６（ｄ）のように、矩形領域６０４の中心を同じに所定倍率をかけた矩形領域６０８としてもよい。また、必ずしも矩形である必要はない。

なお、複数の標本データからクラスタを形成する一般的な手法として、最尤度推定法、Ｋ−ｍｅａｎｓ法、Ｌｉｎｄｅ−Ｂｕｚｏ−Ｇｒａｙ法、Ｍｕｌｔｉ−ＤｉｍｅｎｓｉｏｎａｌＳｃａｌｉｎｇ法などがある。ステップＳ４０５及びステップＳ４０６のグルーピングと各クラスタの代表画像特徴量の生成手法に関しては、このような手法を利用してもよい。

ここで、再び、図４の説明に戻る。
続いて、ステップＳ４０７において、誤検出収集手段３０３は、誤検出辞書を、誤検出辞書記憶手段３０６（外部記憶装置２０６）へ記憶する。

以上の図４の処理により、誤検出辞書生成における処理が終了する。

次に、本実施形態における人数カウント処理における処理の流れについて説明する。
図７は、本発明の実施形態を示し、人数カウント処理における処理の流れの一例を示すフローチャートである。

図７の処理を開始すると、まず、ステップＳ７０１において、画像処理装置１０６（例えば、被写体検出手段３０２）は、撮像手段３０１からフレーム画像を取得する。これは、ステップＳ４０１と同じである。

続いて、ステップＳ７０２において、被写体検出手段３０２は、フレーム画像から被写体を検出する。この処理は、ステップＳ４０２と同じである。

続いて、ステップＳ７０３において、誤検出判定手段３０７は、ステップＳ７０２で検出した被写体があった場合には、誤検出辞書記憶手段３０６に記憶された位置情報と照合を行う。誤検出辞書記憶手段３０６に記憶された全ての誤検出情報１０２０、統合誤検出情報１０４０から、位置情報と検出位置の距離が所定の閾値より近いもの、または領域情報内に検出位置が含まれるものに絞込みを行なう。

続いて、ステップＳ７０４において、誤検出判定手段３０７は、ステップＳ７０３で絞り込んだ結果から、類似度判定手段３０４によって、類似した画像情報があるかを照合する。類似度判定手段３０４は、検出した被写体の検出位置における画像情報から画像特徴量を求め、ステップＳ７０３で絞り込んだ誤検出情報や統合誤検出情報の画像特徴量、代表画像特徴量と類似度を判定する。類似した画像情報および代表画像特徴量があれば誤検出と判定する。誤検出と判定されなかった場合には、検出結果は、検出したフレームのタイムコードと対応付けて、ＲＡＭ２０３に記憶される。

続いて、ステップＳ７０５において、被写体追跡手段３０８は、現在から所定時間前までの間に検出された被写体領域をＲＡＭ２０３より読み出し、軌跡を生成する。これは、所定時間内に検出された複数ある被写体のうち、どれが同一の人物の動きに対応するかを求める処理である。この様子を、図９を用いて説明する。

図９は、本発明の実施形態を示し、人物の軌跡の生成とカウントの一例を示す模式図である。
図９において、９０１は撮像しているフレーム全体である。ここに、所定の時間に検出された人物の領域を、矩形で表現して重ね描きしている (領域９０３〜９０８)。図９の例では、３フレーム分が重ね描きしており、最も古いフレームでは領域９０３と領域９０６が、次のフレームでは領域９０４と領域９０７が、その次の現在のフレームでは、領域９０５と領域９０８が検出されているものとする。

これらの軌跡を求める方法としては、各領域の中心を求め、各領域の中心間の距離が最小となるもの同士を同一の被写体とみなし、線分で接続するようにすればよい。このようにして求めた軌跡が、図９の例では、９０９、９１０の２本の線となる。即ち、２人の人物の軌跡が求まったことになる。

ここで、再び、図７の説明に戻る。
続いて、ステップＳ７０６において、計数手段３０９は、被写体追跡手段３０８で作成された軌跡が、所定の条件を満たすかどうかをチェックし、条件を満たしていればカウントする。ここで所定の条件とは、例えば、図９に示した９０２のような計測ラインを横切っているかどうか等である。計測ライン９０２は、ユーザによってフレーム画面内に設定される。図９の例では、線９０９が計測ライン９０２をＩＮ方向に、線９１０がＯＵＴ方向に横切っているので、ＩＮが１、ＯＵＴが１というようにカウントされる。もし、まだ、計測ライン９０２を横切っていない軌跡が存在すれば、この時点では、カウントされない。

続いて、ステップＳ７０７において、表示手段３１０は、計数手段３０９でカウントされた結果をユーザに対して、「ＩＮ＝１，ＯＵＴ＝１」などと、表示する。

以上の図７の処理により、人数カウント処理における処理が終了する。

なお、ステップＳ４０２〜Ｓ４０７、ステップＳ７０２〜ステップＳ７０７は、必ずしも毎フレーム行なう必要はない。現在の映像と計数の表示のずれが、ユーザが許容できる範囲内であれば、これに合わせて、例えば０．５秒ごとに周期的に処理するようにしてもよい。

本実施形態では、誤検出辞書生成処理は設置時に行ったが、これに限ったものではない。人数カウント処理の最中にも照明条件などの外部環境の変化によって画像情報、位置情報を更新してもよいし、予め作成した複数の辞書を切り替えて運用してもよい。

また、図３の類似度判定手段３０４は、画素情報から画像特徴量を求めて特徴量で類似度判定を行なったが、画素情報から直接類似度を求めてもよい。この場合、画像特徴量は、不要である。また、画像特徴量を求めた後は、画素情報を削除してもよい。こうすることで辞書の記憶領域を小さくできる。代表画素情報、代表画像特徴量に関しても、それぞれ画素情報、画像特徴量と同様である。

また、図３の位置統合手段３０５は、被写体検出手段３０２が出力した誤検出位置だけに基づく必要はない。類似度判定手段３０４によって被写体検出手段３０２が被写体判定するサブウィンドウの各画像パターンと、各統合誤検出情報の画像情報との類似度を求め、類似度判定手段３０４が所定の閾値より類似した箇所を判定する。更に、類似した統合誤検出情報の位置情報に、類似した箇所の位置情報を加えて領域情報を再生成することで、位置情報を拡張してもよい。こうすることで、誤検出辞書生成処理時から照明条件などの外部環境が変化し、誤検出辞書生成処理時には誤検出しなかった位置で新たに誤検出が発生したとしても誤検出を抑制する効果がある。

類似度判定するサブウィンドウの数を減らして高速に実現するためには、オプティカルフローや、異なる時刻における複数フレーム間の差分情報を用いて複数フレーム間で変化した領域を含むサブウィンドウだけを走査すればよい。

また、図４のステップＳ４０２において、図３の被写体検出手段３０２の判定閾値を制御してもよい。判定閾値を上げると誤検出が減るが被写体を正しく検出する割合である検出率も同時に下がる。また、判定閾値を下げると検出率が向上するが、同時に誤検出も増える。従って第１の判定閾値で誤検出を収集して統合誤検出情報を生成する。次に、第１の判定閾値より低い第２の判定閾値で誤検出を収集して、統合誤検出情報の画像情報と類似した場合に、類似した統合誤検出情報の領域情報に第２の判定閾値で得た誤検出位置を加えて再生成することで位置情報の拡張を行ってもよい。

また、図４のステップＳ４０６において統合誤検出情報を生成した場合、統合する元となった複数の誤検出情報は削除してもよい。こうすることでＲＡＭ２０３や外部記憶装置２０６の記憶容量を削減でき、誤検出判定手段３０７の照合回数を削減できる。
なお、本発明は前記フローチャートにて示した方法に対応したプログラムをコンピュータにて実施することによっても実現することは明らかである。

また、本実施形態における画像処理装置１０６のハードウェア構成は、図２に示す画像処理装置１０６−１の構成としたが、その他の構成も適用できる。
図８は、本発明の実施形態に係る画像処理装置のハードウェア構成の一例を示すブロック図である。
図８の構成は、図２の構成に比べて、本実施形態に係る処理を行うプログラムを記憶するＣＤ−ＲＯＭ８０１を具備しており、そのため、画像処理装置１０６−２には、記録媒体インターフェース（記録媒体Ｉ／Ｆ）２１１が新たに構成されている。

（その他の実施形態）
また、本発明は、以下の処理を実行することによっても実現される。
即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。
このプログラム及び当該プログラムを記憶したコンピュータ読み取り可能な記録媒体は、本発明に含まれる。

本発明の実施形態では、人物を検出、追尾して所定のラインを通過した人数をカウントする人数カウントシステムを例に挙げたが、本発明は、これに限ったものではない。人物、車、動物、工業生産物などの被写体を検出し、その結果に基づいて解析、警告、表示を行なう様々な監視カメラの用途において用いることが可能である。

３０１撮像手段、３０２被写体検出手段、３０３誤検出収集手段、３０４類似度判定手段、３０５位置統合手段、３０６誤検出辞書記憶手段、３０７誤検出判定手段、３０８被写体追跡手段、３０９計数手段、３１０表示手段

Claims

画像から所定の被写体を検出する被写体検出手段と、
前記被写体検出手段の誤検出情報を収集する誤検出収集手段と、
前記被写体検出手段で前記被写体を検出した検出結果と前記誤検出情報とを照合して前記検出結果が誤検出であるか否かを判定する誤検出判定手段と
を備え、
前記誤検出情報は、前記画像中の位置情報を含むことを特徴とする画像処理装置。
類似した前記誤検出情報の画像情報を判定する類似度判定手段を更に有し、
前記誤検出収集手段は、前記類似度判定手段が類似したと判定した複数の前記誤検出情報の前記位置情報を統合する位置統合手段を含むことを特徴とする請求項１に記載の画像処理装置。
画像から所定の被写体を検出する被写体検出ステップと、
前記被写体検出ステップの誤検出情報を収集する誤検出収集ステップと、
前記被写体検出ステップで前記被写体を検出した検出結果と前記誤検出情報とを照合して前記検出結果が誤検出であるか否かを判定する誤検出判定ステップと
を備え、
前記誤検出情報は、前記画像中の位置情報を含むことを特徴とする画像処理方法。
請求項３に記載の画像処理方法の各ステップをコンピュータに実行させるためのプログラム。