JP2014071832A

JP2014071832A - 物体検出装置及びその検出方法

Info

Publication number: JP2014071832A
Application number: JP2012219715A
Authority: JP
Inventors: Mayu Okumura; 麻由奥村; Yuki Watanabe; 友樹渡辺; Akihito Seki; 晃仁関
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2012-10-01
Filing date: 2012-10-01
Publication date: 2014-04-21
Also published as: US20140093129A1; US9489737B2

Abstract

【課題】物体検出において未検出数を低減する。
【解決手段】実施形態によれば、物体検出装置は、取得部と、第１検出器と、判定部と、第２検出器と、を具備する。取得部は、時系列順の複数フレームを取得する。第１検出器は、前記フレームごとに、予め決められた対象物を検出する。判定部は、前記フレームごとに検出結果を記憶し、第１フレームでの検出結果と、第１フレーム以降の第２フレームでの第１検出器の検出結果とを比較し、前記第２フレームに未検出の対象物が存在するかどうかを判定する。第２検出器は、未検出の検出対象物が存在すると判定された場合には、前記フレームごとに対象物を検出する、前記第１検出器とは性能が異なる。
【選択図】図１

Description

本発明の実施形態は、画像中から対象物体を検出する物体検出装置とその検出方法に関する。

性能の異なる２つの検出器を用いて、画像中から対象物体を検出する技術がある。これは、事前学習した検出器が設置場所の環境に適合しきれなかったために生じる誤検出を低減する技術である。まず第１検出器を用いて画像全体から対象物体を検出し、次に検出された結果のみに対して第２検出器で再度検出を行う。第１検出器と第２検出器の両方で検出された物体を検出結果とすることで、非検出対象物体が検出されてしまうことを低減する。

特開２０１０−１７０２０１号公報

しかしながら、第１検出器の検出結果にのみ第２検出器を用いるため、そもそも第１検出器で検出されない物体の数（未検出の数）は減らないという問題がある。

本発明が解決しようとする課題は、物体検出において未検出数を低減することができる物体検出装置及びその検出方法を提供することである。

実施形態によれば、物体検出装置は、取得部と、第１検出器と、判定部と、第２検出器と、を具備する。取得部は、時系列順の複数フレームを取得する。第１検出器は、前記フレームごとに、予め決められた対象物を検出する。判定部は、前記フレームごとに検出結果を記憶し、第１フレームでの検出結果と、第１フレーム以降の第２フレームでの第１検出器の検出結果とを比較し、前記第２フレームに未検出の対象物が存在するかどうかを判定する。第２検出器は、未検出の検出対象物が存在すると判定された場合には、前記フレームごとに対象物を検出する、前記第１検出器とは性能が異なる。

第１の実施形態の物体検出装置を示すブロック図。検出窓領域が画像中を走査する様子を表す図。重なり率を表す図。検出窓領域が前フレームの検出結果周辺領域を走査する様子を表す図。第１の実施形態の物体検出装置を示すフローチャート。第２の実施形態の物体検出装置を示すブロック図。ポジティブデータ、ネガティブデータの収集を表す図。第２の実施形態の物体検出装置を示すフローチャート。第３の実施形態の物体検出装置を示すブロック図。第３の実施形態のポジティブデータ、ネガティブデータの収集を表す図。第３の実施形態の物体検出装置を示すフローチャート。

以下、図面を参照しながら実施形態に係る物体検出装置及びその検出方法について詳細に説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作を行うものとして、重ねての説明を省略する。

（第１の実施形態）
第１の実施形態における物体検出装置１００について図１のブロック図を参照して説明する。
第１の実施形態の物体検出装置１００は、画像取得部１０１と、第１検出器１０２と、未検出判定部１０３と、第２検出器１０４とを備える。なお物体検出装置１００は、検出結果出力部１１１を含んでいてもよい。なお、以降に説明する実施形態では、検出対象物（例えば後述する２０１）を人物として説明するが、検出対象物２０１は人物に限定せず検出することができる物体またはその部分であればよい。検出対象物２０１は例えば、顔、手、自動車、自転車、道路標識、犬、猫などである。検出結果出力部１１１は、第１検出器１０２の検出結果、及び第２検出器１０４の検出結果を受け取り出力する。

画像取得部１０１は、その周辺を撮影しフレームを時系列に並べた時系列画像を得るためのカメラである。画像取得部１０１としては、通常可視光を撮影するカメラを想定しているが、暗所を撮影するために赤外線カメラを用いてもよい。

第１検出器１０２は、画像取得部１０１により得られた画像から、検出対象物２０１の位置を検出する。第１検出器１０２は例えば、図２で示すように、画像取得部１０１で撮影された画像中を、検出窓領域２００を少しずつずらして、画像全体を漏れなく探索するように走査しながら、検出窓領域２００の内に検出対象物２０１が存在するかを判定し、検出対象物２０１が存在しているかどうかを検出結果として返す。具体的には例えば、第１検出器１０２は画像中における検出対象物２０１の位置を検出結果として返す。例えば、“Tomoki Watanabe, Satoshi Ito and Kentaro Yokoi: “Co-occurrence Histograms of Oriented Gradients for Human Detection”, IPSJ Transactions on Computer Vision and Applications, Vol. 2, pp.39-47. (2010).”に開示されている技術を用いて画像中の検出対象物２０１の位置を検出する。以降に説明する実施形態では、検出窓領域２００を矩形として説明するが、検出窓領域２００は矩形に限定せず、任意の形状でよい。

未検出判定部１０３は、前フレームの検出結果を記憶し、第１フレームでの検出結果と、第１フレーム以外の第２フレームでの検出結果とを比較し、未検出の検出対象物が存在するかどうかを判定する。より具体的には未検出判定部１０３は、記憶しておいた前フレームの検出結果と、現フレームに対する第１検出器１０２の検出結果とを比較し、現フレームに対する第１検出器１０２の検出結果に未検出の検出対象物が存在するかどうかを判定する。前フレームは、通常現フレームの１つ前のフレームであるが、任意の個数前のフレームでもよい。フレームレート、検出対象物２０１の動きの速さ、画像取得部２０１が固定されているかどうか等に応じて、前フレームを現フレームのいくつ前のフレームに設定するかを決定してもよい。例えば、固定されている画像取得部１０１で動きの遅い検出対象物２０１を撮影し、検出する場合には、フレームに映る画像の変化が小さいため、前フレームは現フレームより十分に前のフレームに設定してもよい。また例えば、固定されていない画像取得部１０１を用いて動きの遅い検出対象物２０１を撮影し、検出する場合には、画像取得部１０１のフレームレートによってフレームに映る画像の変化が異なるため、フレームレートに応じて検出対象物２０１がフレームアウトしない範囲で前フレームを設定してもよい。例えば、フレームレートが低い場合には、前フレームを現フレームの直前のフレームや少し前のフレームに設定し、フレームレートが高い場合には、検出対象物２０１がフレームアウトしない範囲で現フレームより前に前フレームを設定してもよい。

前フレームの検出結果とは、第１検出器１０２及び第２検出器１０４の検出結果（またはどちらかの検出結果）における、検出結果に関連する値である。前フレームの検出結果はある指標で表され、例えば、検出対象物２０１の位置や、検出領域の高さや幅、検出領域内の色ヒストグラムである。
未検出判定部１０３は、例えば、前フレームの検出結果と現フレームに対する第１検出器１０２の検出結果の数で未検出を判定してもよい。この場合、現フレームに対する第１検出器１０２の検出結果の数が、前フレームの検出結果の数より少ない場合、未検出が存在すると判定する。

また未検出判定部１０３は例えば、前フレームの検出結果と、現フレームに対する第１検出器１０２の検出結果との検出位置間の距離によって未検出を判定してもよい。前フレームの検出結果の検出位置と、現フレームに対する第１検出器１０２の検出結果の検出位置との間の距離が、予め定められた閾値より大きい場合、未検出が存在すると判定する。例えば、検出位置間の距離は、前フレームの検出結果矩形の中心座標を（ｘ_ｔ−１，ｙ_ｔ−１）、現フレームに対する第１検出器の検出結果矩形の中心座標を（ｘ_ｔ，ｙ_ｔ）とすると、例えば次式で表される。

さらに未検出判定部１０３は例えば、記憶しておいた前フレームの検出結果の検出対象物２０１を包含する領域と、現フレームに対する第１検出器１０２の検出結果の検出対象物２０１を包含する領域とのどちらか、もしくは両方に含まれる領域に対する、記憶しておいた前フレームの検出結果の検出対象物２０１を包含する領域と現フレームに対する第１検出器１０２の検出結果の検出対象物２０１を包含する領域とが重なる領域の割合（重なり率）を、閾値と比較することで未検出を判定してもよい。重なり率が、予め定められた閾値より小さい場合、未検出が存在すると判定する。図３は、上記の重なり率を表す図である。前フレームの検出結果の検出対象物２０１を包含する領域をＡ、現フレームに対する第１検出器１０２の検出結果の検出対象物２０１を包含する領域をＢとすると、重なり率Ｒは次式で表される。重なり率は、換言すれば、前フレームで検出された検出対象物を包含する第１領域と、現フレームで検出された該検出対象物を包含する第２領域との和集合である領域に対する、第１領域と第２領域との積集合である領域の割合である。

また未検出判定部１０３はさらに例えば、記憶しておいた前フレームの検出結果と、現フレームの第１検出器１０２の検出結果との色の類似度を、閾値と比較することで未検出を判定してもよい。前フレームの検出結果の色と、現フレームに対する第１検出器１０２の検出結果の色との類似度が、予め定められた閾値より小さい場合、未検出が存在すると判定する。例えば、ヒストグラムの合計が１となるように正規化された、前フレームの検出結果の対象領域の色ヒストグラムをｐ、現フレームに対する第１検出器１０２の検出結果の対象領域の色ヒストグラムをｑとし、色ヒストグラムｐ、ｑの各ビンをｐ_ｕ、ｑ_ｕとすると、２つの正規化色ヒストグラムの類似度Ｓは次式で表される。

さらにまた未検出判定部１０３は、上述した複数の指標を組み合わせて未検出が存在するかどうかを判定してもよい。

第２検出器１０４は、第１検出器１０２とは性能が異なる検出器であり、画像取得部１０１により得られた画像から、検出対象物２０１の位置を検出する。性能が異なるとは、検出に用いるパラメータ（例えば、解像度、画像の分割サイズ、次元数等）の違い、検出に用いる特徴量（例えば、HOG、CoHOG、LBP、edgelet、Haar、Joint-Haar等）の違い、検出器の学習に用いる学習手法（例えば、SVM、boosting、random trees、k-NN、Perceptron、Passive Agressive、AROW、Confidence weighted等）の違い、検出対象物のうち検出に用いるパーツ（例えば、対象物が人物であれば上半身・下半身・顔、対象物が車であれば正面・側面・後面・上面部分など）の違いにより、ある検出対象物２０１について一方の検出器で検出できる物体が他方では検出できない、もしくはその逆など、検出性能に違いがあることである。

第２検出器１０４は、例えば図４に示すように、未検出判定部１０３により現フレームに対する第１検出器１０２の検出結果に未検出が存在すると判定された場合に、前フレームの検出矩形４０２の上下左右に予め定めたサイズのマージン領域を付加して前フレームの検出結果周辺領域４０１を設定する。設定した前フレームの検出結果周辺領域４０１の中で、検出窓領域２００を少しずつずらして走査し、画像中における検出対象物２０１の位置を検出する。第２検出器１０４は、例えば第１検出器１０２とパラメータが異なる検出器でもよい。この場合例えば、第１検出器１０２に、上記の“Tomoki Watanabe, Satoshi Ito and Kentaro Yokoi: “Co-occurrence Histograms of Oriented Gradients for Human Detection”, IPSJ Transactions on Computer Vision and Applications, Vol. 2, pp.39-47. (2010).”に開示されている技術を用い、第１検出器１０２では画像を６ pixel × ６ pixelに分割して輝度勾配共起ヒストグラムを生成した場合、第２検出器１０４は、画像を４ pixel × ４ pixelに分割して輝度勾配共起ヒストグラムを生成する検出器でもよい。
また例えば、第２検出器１０４は、第１検出器１０２と検出器の学習に用いる学習手法が異なる検出器でもよい。例えば、第１検出器１０２に上記の“Tomoki Watanabe, Satoshi Ito and Kentaro Yokoi: “Co-occurrence Histograms of Oriented Gradients for Human Detection”, IPSJ Transactions on Computer Vision and Applications, Vol. 2, pp.39-47. (2010).”に開示されている技術を用いた場合、第２検出器は“T. Mita, T. Kaneko and O.Hori, “Joint Haar-like Features for Face Detection”, IEEE International Conference on Computer Vision, pp. 1619-1626, 2005.”に開示されている技術を用いてもよい。

さらに例えば第２検出器１０４は、第１検出器１０２とは検出対象物のうち検出に用いるパーツが異なる検出器でもよい。例えば、第１検出器１０２が人物の上半身を検出する検出器の場合、第２検出器は、人物の下半身を検出する検出器でもよい。他に例えば、第１検出器１０２が人物の顔検出を行い、第２検出器１０４が人物の全身検出を行ってもよい。
次に、第１の実施形態に係る物体検出装置の動作について図１及び図５を参照して説明する。なお図５は、第１の実施形態に係る物体検出装置の動作を示すフローチャートである。
まず、画像取得部１０１が画像を撮影し（Ｓ５０１）、第１検出器１０２が、その画像について検出窓領域２００を少しずつずらしながら、検出窓領域２００に検出対象物２０１が存在するかを判定して、その位置を検出する（Ｓ５０２）。

次に、未検出判定部１０３が、前フレームの検出結果と現フレームにおける第１検出器１０２の検出結果を比較し、未検出があるかを判定する（Ｓ５０３）。未検出判定部１０３が、現フレームに対する第１検出器１０２の検出結果に、未検出はないと判定した場合（Ｓ５０４）、検出結果出力部１１１が第１検出器１０２の検出結果を出力し処理を終了する（Ｓ５０６）。

未検出判定部１０３が現フレームに対する第１検出器１０２の検出結果に未検出が存在すると判定した場合（Ｓ５０４）、前フレームの検出矩形４０２を包含するように検出結果周辺領域４０１を設定し、検出結果周辺領域４０１の中に沿って検出窓領域２００を少しずつずらして走査し、検出窓領域２００内に検出対象物２０１が存在するかを、第２検出器１０４を用いて検出する（Ｓ５０５）。その後、検出結果出力部１１１が第１検出器１０２の検出結果と第２検出器１０４の検出結果とを出力し処理を終了する（Ｓ５０６）。
このように、第１の実施形態に係る物体検出装置によれば、第１検出器１０２の検出結果に未検出がある場合に、前フレームの検出結果周辺に対して第２検出器１０４を用いることで、未検出数を低減することが可能となる。

以上に示した第１の実施形態によれば、第１検出器の検出結果に未検出が存在するかを判定し、未検出が存在すると判定された場合には、第１検出器とは性能の異なる第２検出器を用いることによって、未検出を低減することができる。

（第２の実施形態）
第２の実施形態の物体検出装置６００は、第１の実施形態の装置部分に加え、学習部６０２を備えることが異なる。また第２検出器６０１は、学習部６０２からデータをフィードバックするので、第１の実施形態の第２検出器１０４とはこのフィードバックする点が異なる。

第２の実施形態に係る物体検出装置６００について図６を参照して説明する。
学習部６０２は、画像取得部１０１により得られた現フレームの画像からポジティブデータとネガティブデータとを決定して収集し、収集したデータから算出した特徴量を用いて、第２検出器６０１が検出対象物２０１を検出するための辞書と呼ばれるパラメータを更新する。学習部６０２はこれらのパラメータを記憶している。ポジティブデータとネガティブデータとは、第１検出器１０２の検出結果と第２検出器６０１の検出結果と（またはどちらかの検出結果）を用いて決定される。学習部６０２は、例えば図７のように第１検出器１０２の検出結果と第２検出器６０１の検出結果と（またはどちらかの検出結果）の領域７０１から算出した特徴量の情報をポジティブデータとし、また第１検出器１０２の検出結果と第２検出器６０１の検出結果と（またはどちらかの検出結果）の領域７０１をランダムな値だけ上下、左右にずらした領域７０２から算出した特徴量の情報をネガティブデータとする。例えば、第１検出器１０２または第２検出器６０１の検出結果の領域７０１の左上の座標を(Ｘ_ｒ，Ｙ_ｒ)とすると、ネガティブデータの領域７０２の左上の座標（Ｘ，Ｙ）は次式で表される。

ここでδ_１、δ_２は、ランダムに定めた値である。ポジティブデータとは検出対象物２０１を含む領域７０１から算出した特徴量の情報であり、ネガティブデータとは検出対象物２０１を含まない、もしくは部分的に含む領域７０２から算出した特徴量の情報である。これらのポジティブデータとネガティブデータから、特徴量を変数とした空間において、ポジティブデータになる場合とネガティブデータになる場合との境界線（一般には境界となる超平面。特徴量の次元に依存する。）を決定することができる。

特徴量の情報を算出するには、例えば、前述の“Tomoki Watanabe, Satoshi Ito and Kentaro Yokoi: “Co-occurrence Histograms of Oriented Gradients for Human Detection”, IPSJ Transactions on Computer Vision and Applications, Vol. 2, pp.39-47. (2010).”に開示されている技術を用いる。また辞書の更新には、オンライン学習と呼ばれる手法を用いる。例えば、“Koby Crammer, Arex Kulesza, Mark Dredze : “Adaptive Regularization of Weight Vectors”, Neural Information Processing Systems(2009).”に開示されている方法を用いる。

オンライン学習では、画像取得部１０１が取得した画像に対する、第１検出器１０２及び第２検出器６０１の検出結果から学習部６０２がパラメータを更新する。画像取得部１０１が設置環境下で、照明条件等が異なる多様な画像を大量に取得し、学習部６０２がその画像から学習することで、より画像取得部１０１の設置環境での検出に適したパラメータを得ることができる。

第２検出器６０１は、学習部６０２から更新された辞書（更新されたパラメータ）を入力して、このパラメータを使用して検出対象物２０１を検出する。検出手法は、第１の実施形態での第１検出器または第２検出器と同様である。

次に、第２の実施形態に係る物体検出装置の動作について図８を参照して説明する。図８は、図５と同一又は相当の部分については同一の符号を付し説明を省略する。第２の実施形態の物体検出装置は、第１の実施形態の物体検出装置の動作に新たに辞書の更新（Ｓ８０１）を追加したものであり、第１の実施形態の物体検出装置とは辞書の更新（Ｓ８０１）がある点が異なる。
辞書の更新（Ｓ８０１）では、第１検出器１０２と第２検出器６０１（またはどちらか）によって検出対象物２０１が検出されると、検出結果の領域７０１と、その周辺の領域７０２とから特徴量を算出し、辞書の更新を行う。この処理は、学習部６０２で行われる。

以上に示した第２の実施形態によれば、照明条件が事前に用意している条件とは異なるなどの理由によって事前に用意するデータでは検出できない物体についても、辞書を更新することによって、物体を検出することが可能となるため、未検出数を低減することが可能となる。

（第３の実施形態）
第３の実施形態の物体検出装置９００は、第１の実施形態の装置部分に加え、第１学習部９０２及び第２学習部６０２を備えることが異なる。また第３の実施形態の第１検出部９０１及び第２検出部６０１はそれぞれ、第１学習部９０２及び第２学習部６０２からデータをフィードバックするので、第１の実施形態の第１検出部及び第２検出部とはこのフィードバックする点が異なる。

第３の実施形態では、第１検出器９０１と第２検出器６０１とは、検出対象物のうち検出に用いるパーツ（人物の上半身と下半身、車体全体と正面部分など）の違いにより、検出性能が異なる検出器とする。例えば第１検出器９０１は、人物の上半身の特徴を用いて検出し、第２検出器は人物の下半身を用いて検出する。

第１学習部９０２は、画像取得部１０１により得られた現フレームの画像から、第１学習部９０２が用いるポジティブデータと、第１学習部９０２が用いるネガティブデータとを決定し収集し、収集したデータから算出した特徴量を用いて、第１検出器９０１が検出対象物２０１を検出するための辞書と呼ばれるパラメータを更新する。第１学習部９０２が用いるポジティブデータと第１学習部９０２が用いるネガティブデータとは、第１検出器９０１の検出結果を用いて決定する。図１０のように、第１検出器９０１の検出結果の領域１００１、１０１１から算出した特徴量の情報を第１学習部９０２が用いるポジティブデータとし、また第１検出器９０１の検出結果の領域１００１、１０１１をランダムな値だけ上下、左右にずらした領域１０１２から算出した特徴量の情報を第１学習部９０２が用いるネガティブデータとする。

また第２学習部６０２は、画像取得部１０１により得られた現フレームの画像から第２学習部６０２が用いるポジティブデータと第２学習部６０２が用いるネガティブデータを収集し、収集したデータから算出した特徴量を用いて、第２検出器６０１が検出対象物２０１を検出するための辞書と呼ばれるパラメータを更新する。第２学習部６０２が用いるポジティブデータと、第２学習部６０２が用いるネガティブデータとは、第２検出器６０１の検出結果を用いて決定する。図１０のように、第２検出器６０１の検出結果の領域１００２、１０２１から算出した特徴量の情報を第２学習部６０２が用いるポジティブデータとし、また第２検出器６０１の検出結果の領域１００２、１０２１をランダムな値だけ上下、左右にずらした領域１０２２から算出した特徴量の情報を第２学習部６０２が用いるネガティブデータとする。特徴量の情報を算出するには、例えば、前述の“Tomoki Watanabe, Satoshi Ito and Kentaro Yokoi: “Co-occurrence Histograms of Oriented Gradients for Human Detection”, IPSJ Transactions on Computer Vision and Applications, Vol. 2, pp.39-47. (2010).”に開示されている技術を用いる。また、辞書の更新には、例えば、“Koby Crammer, Arex Kulesza, Mark Dredze : “Adaptive Regularization of Weight Vectors”, Neural Information Processing Systems(2009).”に開示されているオンライン学習と呼ばれる手法を用いる。

第３の実施形態に係る物体検出装置の動作について図１１を参照して説明する。図１１は、図５と同一又は相当の部分については同一の符号を付し説明を省略する。第３の実施形態の物体検出装置９００は、第１の実施形態の物体検出装置１００に新たに第１検出器９０１が用いる辞書の更新（Ｓ１１０２）と第２検出器６０１が用いる辞書の更新（Ｓ１１０１）を追加したものであり、第１の実施形態とは第１検出器９０１が用いる辞書の更新（Ｓ１１０２）と第２検出器６０１が用いる辞書の更新（Ｓ１１０１）がある点が異なる。

第１検出器９０１が用いる辞書の更新（Ｓ１１０２）では、第１検出器９０１によって検出対象物２０１が検出されると、第１検出器９０１の検出結果の領域１００１と、その周辺の領域１０１２から特徴量を算出し、第１検出器９０１が用いる辞書の更新を行う。この処理は第１学習部９０２で行われる。

第２検出器６０１が用いる辞書の更新（Ｓ１１０１）では、第２検出器６０１によって検出対象物２０１が検出されると、第２検出器６０１の検出結果の領域１００２と、その周辺の領域１０２２から特徴量を算出し、第２検出器６０１が用いる辞書の更新を行う。この処理は第２学習部６０２で行われる。

以上に示した第３の実施形態によれば、第２の実施形態の効果に加え、複数の検出器ごとに検出に用いるパーツを異ならせることにより、片方のパーツに隠れが生じていても他方のパーツで検出することができるため、未検出数を低減することが可能となる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１００，６００，９００・・・物体検出装置、１０１・・・画像取得部、１０２，９０１・・・第１検出器、１０３，３０２，３０４・・・未検出判定部、１０４，６０１・・・第２検出器、１１１・・・検出結果出力部、２００・・・検出窓領域、２０１・・・検出対象物、４０１・・・前フレームの検出結果周辺領域、４０２・・・前フレームの検出矩形、６０２・・・学習部、第２学習部、７０１，１０１１，１０２１・・・ポジティブデータが関連する領域、７０２，１０１２，１０２２・・・ネガティブデータが関連する領域、９０２・・・第１学習部、１００１，１００２・・・検出結果の領域。

Claims

時系列順の複数フレームを取得する取得部と、
前記フレームごとに、予め決められた対象物を検出する第１検出器と、
前記フレームごとに検出結果を記憶し、第１フレームでの検出結果と、第１フレーム以降の第２フレームでの第１検出器の検出結果とを比較し、前記第２フレームに未検出の対象物が存在するかどうかを判定する判定部と、
未検出の検出対象物が存在すると判定された場合には、前記フレームごとに対象物を検出する、前記第１検出器とは性能が異なる第２検出器と、を具備する物体検出装置。
前記第１検出器の検出結果と前記第２検出器の検出結果とを記憶する記憶部をさらに具備し、
前記判定部は前記第２検出器の第２フレームの検出結果と、第２フレーム以降の第３フレームでの第１検出器の検出結果とを比較し、前記第３フレームに未検出の対象物が存在するか否かを判定する請求項１記載の物体検出装置。
前記判定部は、前記第２フレームとして現フレームを採用し、前記第１フレームとして該現フレームよりも以前の前フレームを採用し、現フレームで検出された検出対象物の第１数と、前フレームで検出された検出対象物の第２数とを比較し第１数よりも第２数が多い場合に、現フレームに未検出の検出対象物が存在していると判定する請求項１または２に記載の物体検出装置。
前記判定部は、前記第２フレームとして現フレームを採用し、前記第１フレームとして該現フレームよりも以前の前フレームを採用し、現フレームで検出された検出対象物の位置と、前フレームで検出された該検出対象物の位置との距離が閾値より大きい場合に、現フレームに未検出の検出対象物が存在していると判定する請求項１または２に記載の物体検出装置。
前記判定部は、前記第２フレームとして現フレームを採用し、前記第１フレームとして該現フレームよりも以前の前フレームを採用し、前フレームで検出された検出対象物を包含する第１領域と、現フレームで検出された該検出対象物を包含する第２領域との和集合である第３領域に対する、第１領域と第２領域との積集合である第４領域の割合が閾値より小さい場合に、現フレームに未検出の検出対象物が存在していると判定する請求項１または２に記載の物体検出装置。
前記判定部は、前記第２フレームとして現フレームを採用し、前記第１フレームとして該現フレームよりも以前の前フレームを採用し、現フレームで検出された検出対象物の第１色と、前フレームで検出された該検出対象物の第２色との類似度が閾値よりも小さい場合に、現フレームに未検出の検出対象物が存在していると判定する請求項１または２に記載の物体検出装置。
前記第２フレームでの検出対象物を含む第１領域と、該第２フレームでの検出対象物の部分を含むまたは検出対象物を含まない第２領域とから算出した特徴量の情報を用いて、検出に使用するパラメータを更新する学習部をさらに具備し、
前記第２検出器は、前記パラメータを使用してフレームごとに検出対象物が存在しているかどうかを判定する請求項１に記載の物体検出装置。
前記第１領域は前記第１検出器及び前記第２検出器のいずれか１つ以上から検出された領域であり、前記第２領域は該第１領域からランダムに移動した領域である請求項７に記載の物体検出装置。
前記学習部は、オンライン学習により前記パラメータを更新する請求項７に記載の物体検出装置。
時系列順の複数フレームを取得し、
前記フレームごとに、予め決められた対象物を検出し、
前記フレームごとに検出結果を記憶し、第１フレームでの検出結果と、第１フレーム以降の第２フレームでの第１検出器の検出結果とを比較し、前記第２フレームに未検出の対象物が存在するかどうかを判定し、
未検出の検出対象物が存在すると判定された場合には、前記予め決められた対象物を検出した検出装置とは異なる性能による検出装置によって前記フレームごとに対象物を検出する、物体検出方法。