WO2010032298A1

WO2010032298A1 - 画像処理装置、画像処理方法および画像処理プログラム

Info

Publication number: WO2010032298A1
Application number: PCT/JP2008/066791
Authority: WO
Inventors: 悟牛嶋; 雅芳清水
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-09-17
Filing date: 2008-09-17
Publication date: 2010-03-25
Anticipated expiration: 2011-03-17
Also published as: JP4947216B2; JPWO2010032298A1

Abstract

　本発明にかかる画像処理装置（１００）は、検出対象となる顔の特徴を学習して学習データを作成し、所定の検出領域毎に、学習データと入力画像データとを比較することで、顔が含まれている可能性がある領域を抽出する。そして、画像処理装置（１００）は、顔候補領域が所定の領域に複数存在しているか否か（顔候補領域が属するＧＩＤに他の顔候補領域が属しているか否か）によって、顔画像を抽出することで、顔画像の誤検出を防止する。

Description

画像処理装置、画像処理方法および画像処理プログラム

　本発明は、画像データから物体を検出する画像処理装置、画像処理方法および画像処理プログラムに関するものである。

　近年、カメラ等によって撮影された画像中から、各種の物体（例えば、人物の顔、車等）を検出する物体検出の研究が行われている。物体検出の技術は、予め、検出対象となる物体の特徴を学習して学習データを作成し、作成した学習データと、画像データとを比較することで、画像中に検出対象となる物体が存在するか否かを判定する技術である。

　ここで、検出対象となる実際の画像データ中には顔全体がはっきりと映った画像も存在すれば、少しぼやけた顔や、一部何かに隠れた顔の画像が存在している。このような各種の画像から顔の存在有無を判定するためには、様々な顔画像を想定して学習データを作成する手法や、顔らしさを判定する閾値を下げる方法等が存在する。

　また、動画像から物体を検出する際に、先行するフレームの画像中に顔画像が存在すると判定した場合に、顔画像の存在する領域から画像プロパティモデルを抽出し、抽出した画像プロパティモデルを利用して後続フレームの顔画像を検出することで、物体検出の精度を向上させるという技術も知られている（例えば、特許文献１参照）。
　また、画像情報の量子化技術には、画像データを周波数変換（ウェーブレット＜Wavelet＞変換）し、変換結果となる変換係数の大小（または、隣り合う画素同士の画素値の差分の大小）から量子化処理を行う技術がある（例えば、非特許文献１参照）。

特開２００４－１９２６３７号公報 H.Schneiderman　and　T.　Kanade,　Object　Detection　Using　the　Statistics　of　Parts　To　appear　in　International　Journal　of　Computer　Vision,2002.

　しかしながら、上述した従来の技術では、物体の誤検出を防止することができないという問題があった。

　例えば、様々な顔画像を想定した学習データを作成する手法、または、顔らしさを判定する閾値を下げる手法では、顔画像であるか否かの判定基準があまくなるため、様々な顔画像を検出することができる反面、顔画像に類似した顔画像ではない画像（例えば、花の画像）を検出してしまう可能性があった。

　また、先行するフレームの顔画像の領域から画像プロパティモデルを抽出し、当該画像プロパティモデルを利用して、後続フレームの顔画像を検出する手法も存在するが、かかる物体検出では、先行するフレームから顔画像を検出した後でないと、顔画像であるか否かを精度よく判定することが出来ないという問題点がある。

　この発明は、上述した従来技術による問題点を解消するためになされたものであり、物体の誤検出を防止することができる画像処理装置、画像処理方法および画像処理プログラムを提供することを目的とする。

　上述した課題を解決し、目的を達成するため、この画像処理装置は、顔画像の特徴を有する辞書データを記憶する記憶手段と、動画像の入力を受け付ける入力手段と、前記動画像に含まれる複数のフレームの内、一つのフレームを処理対象フレームとし、当該処理対象フレームに含まれる画像データと前記辞書データとを基にして前記処理対象フレームから顔画像の特徴を含んだ領域を示す顔画像候補領域を抽出する抽出手段と、前記抽出手段により、前記処理対象フレーム内の第一領域に対して複数個の前記顔画像候補領域が抽出された場合に、前記第一領域を、顔画像を含む領域であると判定する判定手段と、を有することを要件とする。

　この画像処理装置によれば、処理対象フレーム内の第一領域に対して複数個の顔画像候補領域が抽出された場合に、第一領域を、顔画像を含む領域であると判定するので、顔画像を正確に抽出でき、顔画像の誤検出を防止することができる。

図１は、本実施例にかかる画像処理装置の概要および特徴を説明するための図である。図２は、連続するフレームに基づいて顔検出方法を説明するための図である。図３は、本実施例にかかる画像処理装置の構成を示す機能ブロック図である。図４は、顔学習データのデータ構造の一例を示す図である。図５は、非顔学習データのデータ構造の一例を示す図である。図６は、比較対象データのデータ構造の一例を示す図である。図７は、顔検出処理部の処理の一例を説明するための図である。図８は、実検出結果管理テーブルのデータ構造の一例を示す図である。図９は、検出範囲の移動の様子を説明するための図である。図１０は、本実施例にかかる画像処理装置の処理手順を示すフローチャートである。図１１は、検出結果集約処理の処理手順を示すフローチャートである。図１２は、重なり判定処理の処理手順を示すフローチャート（１）である。図１３は、重なり判定処理の処理手順を示すフローチャート（２）である。図１４は、第１の重なり領域処理の処理手順を示すフローチャートである。図１５は、第２の重なり領域処理の処理手順を示すフローチャートである。図１６は、本実施例にかかる画像処理装置を構成するコンピュータのハードウェア構成を示す図である。

符号の説明

　３０　　コンピュータ
　３１　　入力装置
　３２　　モニタ
　３３　　ＲＡＭ
　３３ａ、３９ａ　各種データ
　３４　　ＲＯＭ
　３５　　通信制御装置
　３６　　媒体読取装置
　３７　　カメラ
　３８　　ＣＰＵ
　３８ａ　画像処理プロセス
　３９　　ＨＤＤ
　３９ｂ　画像処理プログラム
１００　　画像処理装置
１１０　　変換処理部
１２０　　分析処理部
１３０　　記憶部
１３０ａ　顔学習データ
１３０ｂ　非顔学習データ
１３０ｃ　比較対象データ
１３０ｄ　実検出結果管理テーブル
１４０　　顔検出処理部

　以下に、本発明にかかる画像処理装置、画像処理方法および画像処理プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、以下の実施例では、検出対象の一例として顔画像を検出する場合について説明するが、これに限定されるものではなく、その他の画像、例えば、車の画像を検出しても良い。

　まず、本実施例にかかる画像処理装置の概要および特徴について説明する。図１は、本実施例にかかる画像処理装置の概要および特徴を説明するための図である。本実施例にかかる画像処理装置は、まず、検出対象となる顔の特徴を学習して学習データを作成し、所定の検出領域毎に、学習データと入力画像データとを比較することで、顔が含まれている可能性がある領域を抽出する。以下の説明において、顔が含まれている可能性のある領域を顔候補領域と表記する。

　そして、本実施例にかかる画像処理装置は、所定の領域に対して、複数の顔候補領域が抽出されたか否かによって、入力画像データに顔画像が含まれているか否かを判定する。例えば、図１の左側に示すように、所定の領域内に複数の顔候補領域が存在する場合には、複数の顔候補領域が密集している領域を顔画像として判定する。一方、図１の右側に示すように、所定の領域内に複数の顔候補領域が含まれていない場合、すなわち、単一の顔候補領域が含まれている場合には、単一の顔候補領域が存在する領域に顔画像が含まれていないと判定する。

　顔画像を含んだフレームに対して顔画像を検出する処理を行う場合には、フレームの中にどのような大きさの顔が含まれているかはわからないので、該フレーム内で、顔検出対象とする領域を切出しながら、検出処理を行う。切出す領域は、複数種類の大きさに変化させて、また、フレーム内で切り出し位置を少しずつずらしながらフレーム内で領域を設定することになる。顔画像に対して、学習データを用いた物体検出を実行すると、顔画像上の複数の領域が顔候補領域として検出される傾向が強く、顔画像以外の画像（例えば、花の画像）に対して物体検出を実行すると、単一の領域が顔候補領域として検出される傾向が強いので、上記の手法によって顔画像を正確に抽出することができる。
　例えば、顔画像付近を少しずつずらしながら切り出し領域を変化させると、切り出し領域内に目や鼻、口といった顔としての特徴が含まれていれば、その切り出し領域を顔画像として検出することになる。従って、図１の左側に示すように、少しずつずらして設定した各切り出し領域で、それぞれ顔として検出するので、顔画像上の複数の領域が顔候補領域として検出される。これに対して、例えば花などの本当は顔ではない被写体は、たまたま撮影時の外光の関係等で瞬間的に、顔画像の目や鼻、口に相当する部分に特徴が生じてしまう場合がある。このような本当は顔ではない画像付近を少しずつずらしながら切り出し領域を変化させると、たまたま特徴が生じてしまった領域でのみ顔画像であると検出し、少しでも切り出し領域をずらすと、そのような特徴が得られずに、顔画像とは検出しない場合が多い。従って、図１の右側に示すように、単一の領域が顔候補領域として検出される傾向が強い。

　このように、本実施例にかかる画像処理装置は、顔候補領域が所定の領域に複数存在しているか否かによって、顔画像を抽出するので、顔画像を正確に抽出でき、顔画像の誤検出を防止することができる。また、かかる画像処理装置は、複数のフレームを参照することなく、単一のフレームによって誤検出を防止することができる。

　また、本実施例にかかる画像処理装置は、動画像の連続するフレーム毎に顔候補領域を検出し、前後のフレームで検出された顔候補領域の位置関係に基づいて、入力画像データに顔画像データが含まれているか否かを判定する。図２は、連続するフレームに基づいて顔検出方法を説明するための図である。

　図２に示すように、画像処理装置は、フレーム１にて顔候補領域Ａ，Ｂを抽出し、続くフレーム２にて検出される顔候補領域の位置と、フレーム１にて抽出した顔候補Ａ，Ｂの位置とを基にして、顔画像を判定する。

　例えば、フレーム２に示すように、顔候補領域Ｃが検出され、顔候補領域Ａの近傍（フレーム１にて検出した顔候補領域Ａに対応する位置の近傍）に顔候補領域Ｃが存在している場合には、顔候補領域Ｃを顔画像であると判定する。

　一方、フレーム２にて、顔候補領域Ｂの近傍に位置する顔候補領域が検出されなかった場合には、顔候補領域Ｂは、顔画像でないと判定する。顔を動画像で撮影している場合には、実際の顔に対して顔候補領域が抽出され続け、顔以外のもの（例えば、花）に対しては、断続的に顔候補領域が抽出されるため、上記のように、連続して抽出される顔候補領域の位置関係から顔か否かを判定することで、正確に顔画像が含まれているか否かの判定を実行することができる。

　このように、本実施例にかかる画像処理装置は、前後のフレーム間に存在する顔候補領域の位置関係から、顔画像を抽出するので、顔画像を正確に抽出でき、顔画像の誤検出を防止することができる。

　次に、本実施例にかかる画像処理装置の構成について説明する。図３は、本実施例にかかる画像処理装置の構成を示す機能ブロック図である。図３に示すように、この画像処理装置１００は、変換処理部１１０と、分析処理部１２０と、記憶部１３０と、顔検出処理部１４０とを有する。

　変換処理部１１０は、顔画像集データおよび非顔画像集データを取得し、取得した顔画像集データおよび非顔画像集データに対して周波数変換処理（例えば、ウェーブレット変換）を実行する処理部である。画像データに対する周波数変換処理は、周知技術と同様である。ここで、顔画像集データは、様々な人物の顔画像を集めた画像データであり、顎から頭をほぼ含む上下幅、両耳をほぼ含む左右幅で、顔を全面に写した画像群で構成されている。もちろん、多様な顔を検出するための学習データであるので、真正面から顔を写したデータのほかに、斜め上や下や左や右を向いたデータや、帽子や眼鏡を掛けた顔のデータ、様々な年齢や性別の人のデータが含まれていても良い。非顔画像集データは、顔画像以外の各種の画像を集めた画像データである。

　変換処理部１１０は、入力装置、記憶装置（図示略）等から顔画像集データおよび非顔画像集データを取得する。変換処理部１１０は、周波数変換した顔画像集データおよび非顔画像集データを分析処理部１２０に出力する。以下の説明において、周波数変換した顔画像集データを変換顔画像集データと表記し、周波数変換した非顔画像集データを変換非顔画像集データと表記する。

　分析処理部１２０は、変換顔画像集データおよび変換非顔画像集データを取得した場合に、変換画像集データを基にして顔学習データを作成し、変換非顔画像集データを基にして非顔学習データを作成する処理部である。

　まず、分析処理部１２０が、顔学習データを作成する処理について説明する。分析処理部１２０は、変換顔画像集データに含まれる画像データから単一の画像データを抽出する。そして、分析処理部１２０は、各変換係数と、量子化閾値とを比較することにより、該当変換係数値を量子化する。量子化閾値は、予め、分析処理部１２０に設定されているものとする。

　同様に、分析処理部１２０は、変換顔画像集データに含まれる残りの画像データも、上記の手法により量子化する。そして、分析処理部１２０は、量子化した各画像データの各変換係数値（各画像データの同一位置に対応する変換係数値）を比較し、変換係数値の頻度に基づいて、顔学習データを作成する。例えば、画像データ中の位置（ｘ１、ｙ１）の変換係数値について、各画像データを比較したところ、他の変換係数値（例えば、変換係数値「０」、「２」等）の頻度よりも変換係数値「１」の頻度のほうが大きい場合には、顔学習データ中の位置（ｘ１、ｙ１）の変換係数値を「１」に設定する。

　図４は、顔学習データのデータ構造の一例を示す図である。図４に示すように、この顔学習データは、位置情報と変換係数値とを対応付けて記憶している。なお、顔学習データのデータ構造は、図４に示したものに限らず、例えば、物体検出時に比較する変換係数の塊（例えば、８係数）毎に変換係数値を対応付けて記憶させても良い。

　次に、分析処理部１２０が、非顔学習データを作成する処理について説明する。分析処理部１２０は、変換非顔画像集データに含まれる画像データから単一の画像データを抽出する。そして、分析処理部１２０は、各変換係数と、量子化閾値とを比較することにより、該当ブロックの画素値を量子化する。

　同様に、分析処理部１２０は、変換非顔画像集データに含まれる残りの画像データも、上記の手法により量子化する。そして、分析処理部１２０は、量子化した各画像データの各画素値（各画像データの同一位置に対応する画素値）を比較し、画素値の頻度に基づいて非顔学習データを作成する。例えば、画像データ中の位置（ｘ１、ｙ１）の画素値について、各画像データを比較したところ、他の画素値の頻度よりも、画素値「１」の頻度のほうが大きい場合には、非顔学習データ中の位置（ｘ１、ｙ１）の画素値を「１」に設定する。

　図５は、非顔学習データのデータ構造の一例を示す図である。図５に示すように、この非顔学習データは、位置情報と係数値とを対応付けて記憶している。なお、非顔学習データのデータ構造は、図５に示したものに限らず、例えば、物体検出時に比較する変換係数の塊（例えば、８係数）毎に係数値を対応付けて記憶させても良い。

　記憶部１３０は、分析処理部１２０から出力される顔学習データ１３０ａ、非顔学習データ１３０ｂ、顔検出処理部１４０から出力される比較対象データ１３０ｃ、実検出結果管理テーブル１３０ｄを記憶する記憶部である。このうち、比較対象データ１３０ｃおよび実検出結果管理テーブル１３０ｄの説明は後述する。

　顔検出処理部１４０は、動画像データを取得した場合に、取得した動画像の各フレームに含まれる画像データから顔画像を検出する処理部である。顔検出処理部１４０は、検出結果を上位の装置（図示略）に出力する。以下において、顔検出処理部１４０の処理を具体的に説明する。

　まず、顔検出処理部１４０は、動画像データから単一のフレームを抽出し、抽出したフレームの画像データに対して周波数変換処理（例えば、ウェーブレット変換）を実行する。そして、顔検出処理部１４０は、周波数変換を行った後に、周波数変換を行った画像データを量子化することにより、比較対象データ１３０ｃを作成する。

　ここで、比較対象データ１３０ｃを作成する処理について具体的に説明する。顔検出処理部１４０は、各変換係数と、量子化閾値とを比較することにより、該当ブロックの画素値を量子化する。次に，順次，量子化結果から，辞書と同じサイズの矩形サイズを切り出し，比較対象データ１３０ｃを作成する。なお，前記方法では，一定サイズの顔しか検出できないため，予め入力画像を縮小して，複数サイズの画像に対して検出処理を行ってもよい。縮小した画像に対して検出を行えば，実質，大きなサイズの顔画像を検出したことになる。

　図６は、比較対象データ１３０ｃのデータ構造の一例を示す図である。図６に示すように、この比較対象データ１３０ｃは、位置座標と係数値とを対応付けて記憶している。なお、比較対象データ１３０ｃのデータ構造は、図６に示したものに限らず、例えば、物体検出時に比較する変換係数の塊（例えば、８係数）毎に画素数と対応付けて記憶させても良い。

　そして、顔検出処理部１４０は、記憶部１３０に記憶された顔学習データ１３０ａと、非顔学習データ１３０ｂと、比較対象データ１３０ｃとを比較して、顔候補領域を抽出する。

　図７は、顔検出処理部１４０の処理の一例を説明するための図である。顔検出部１４０は、検出範囲を設定し、顔学習データ１３０ａ、非顔学習データ１３０ｂ、比較対象データ１３０ｃの同一位置の検出範囲に含まれる各ブロックの画素値をそれぞれ比較する。

　そして、顔検出処理部１４０は、比較した結果、比較対象データの検出範囲が顔学習データに類似しているのか、非顔学習データに類似しているかを判定する。図７に示す例では、比較対象データ１３０ｃは、顔学習データ１３０ａに対して、８つヒットし、非顔学習データに対して、１つヒットしているので、非顔学習データ１３０ｂよりも、顔学習データ１３０ａに類似していると判定する。

　顔検出処理部１４０は、図９に示すように、各データ内の検出範囲を走査しながら全面に対してヒット率を判断のち，顔学習データ１３０ａに類似していると判定した場合には、かかる矩形切り出し範囲を顔候補領域として抽出し、実検出結果管理テーブル１３０ｄに登録する。図９は、検出範囲の移動の様子を説明するための図である。実検出結果管理テーブル１３０ｄは、顔候補領域の情報を管理するテーブルである。

　図８は、実検出結果管理テーブル１３０ｄのデータ構造の一例を示す図である。図８に示すように、この実検出結果管理テーブル１３０ｄは、顔候補領域識別番号と、フレーム識別番号と、ＧＩＤ（Group　Identification）と、座標と、座標平均とを対応付けて記憶している。

　このうち、顔候補領域識別番号は、顔検出処理部１４０によって抽出される各顔候補領域を識別する番号である。フレーム識別番号は、動画像に含まれる各フレームを識別するための番号である。

　ＧＩＤは、集約される各顔候補領域を識別するための情報である。図８に示す例では、顔候補領域識別番号「１～３」の顔候補領域が同一のＧＩＤ「１」のグループに集約されている。各顔候補領域を集約する手法は後述する。ＧＩＤの初期値は０に設定される。

　座標は、顔候補領域の座標である。なお、本実施例では一例として、顔候補領域の左上角の座標（Ｘ１、Ｙ１）と、顔候補領域の右下角の座標（Ｘ２、Ｙ２）とを記憶している。座標平均は、同一のＧＩＤに属する各顔候補領域の座標の平均値である。

　顔検出処理部１４０は、変換係数から矩形領域を切り出しながら顔候補領域を抽出し、実検出結果管理テーブル１３０に、顔候補領域識別番号、フレーム識別番号および、座標を登録する。なお、顔検出処理部１４０が、検出範囲内の各画素値を比較する際には、顔学習データ１３０ａ、非顔学習データ１３０ｂ、比較対象データ１３０ｃ上に配置される検出範囲の位置が統一されているものとする。

　顔検出処理部１４０は、比較対象データ１３０ｃから顔候補領域を抽出した後に、実検出結果管理テーブル１３０ｄを参照し、各顔候補領域を比較して、各顔候補領域を集約する。ここでは、説明の便宜上、顔候補領域Ａと顔候補領域Ｂとを比較する場合について説明する。また、顔候補領域Ａと顔候補領域Ｂとの重なり領域をＲとする。

　また、以下の説明において、顔候補領域Ａの座標を（Ａ．Ｘ１、Ａ．Ｙ１）、（Ａ．Ｘ２、Ａ．Ｙ２）と表記する。顔候補領域Ｂの座標を（Ｂ．Ｘ１、Ｂ．Ｙ１）、（Ｂ．Ｘ２、Ｂ．Ｙ２）と表記する。重なり領域Ｒの座標を（Ｂ．Ｘ１、Ｂ．Ｙ１）、（Ｂ．Ｘ２、Ｂ．Ｙ２）と表記する。なお、顔検出処理部１４０は、重なり領域Ｒの座標の初期値として、顔候補領域Ｂと同様の値を設定する。

（対象外の判別）
　顔検出処理部１４０は、
　顔候補領域Ａの横幅／顔候補領域Ｂの横幅≧閾値
　かつ、
　少なくとも、顔候補領域ＡのＧＩＤまたは顔候補領域ＢのＧＩＤの一方が０である場合に、顔候補領域Ａ，Ｂを集約の対象とする。

　それ以外の場合、すなわち、
　顔候補領域Ａの横幅／顔候補領域Ｂの横幅＜閾値
　または、
　顔候補領域Ａ，ＢのＧＩＤが共に０以外の数値である場合には、顔検出処理部１４０は、顔候補領域Ａ，Ｂを集約の対象外とする。

（重なり判定および重なり領域Ｒの抽出）
　顔検出処理部１４０は、顔候補領域Ａ，Ｂを集約の対象とするかどうか判断するために、顔候補領域の座標（Ａ．Ｘ１、Ａ．Ｙ１）、（Ａ．Ｘ２、Ａ．Ｙ２）と、顔候補領域Ｂの座標を（Ｂ．Ｘ１、Ｂ．Ｙ１）、（Ｂ．Ｘ２、Ｂ．Ｙ２）とを基にして、重なり領域を抽出する。

　具体的に、顔検出処理部１４０は、顔候補領域Ａの座標と顔候補領域Ｂの座標とを比較して、Ａ．Ｙ１がＢ．Ｙ１とＢ．Ｙ２との間に存在し、更に、Ａ．Ｘ１がＢ．Ｘ１とＢ．Ｘ２の間に存在している場合には、顔候補領域Ａの左上が顔候補領域Ｂと重なっていると判定し、
重なり領域ＲのＲ．Ｘ１にＡ．Ｘ１を代入し、
重なり領域ＲのＲ．Ｙ１にＡ．Ｙ１を代入することで、重なり領域Ｒの各座標を求める。

　一方、顔検出処理部１４０は、顔候補領域Ａの座標と顔候補領域Ｂの座標とを比較して、Ａ．Ｙ１がＢ．Ｙ１とＢ．Ｙ２との間に存在し、更に、Ａ．Ｘ２がＢ．Ｘ１とＢ．Ｘ２の間に存在している場合には、顔候補領域Ａの右上が顔候補領域Ｂと重なっていると判定し、
重なり領域ＲのＲ．Ｘ２にＡ．Ｘ２を代入し、
重なり領域ＲのＲ．Ｙ１にＡ．Ｙ１を代入することで、重なり領域Ｒの各座標を求める。

　一方、顔検出処理部１４０は、顔候補領域Ａの座標と顔候補領域Ｂの座標とを比較して、Ａ．Ｙ２がＢ．Ｙ１とＢ．Ｙ２との間に存在し、更に、Ａ．Ｘ１がＢ．Ｘ１とＢ．Ｘ２の間に存在している場合には、顔候補領域Ａの左下が顔候補領域Ｂと重なっていると判定し、
重なり領域ＲのＲ．Ｘ１にＡ．Ｘ１を代入し、
重なり領域ＲのＲ．Ｙ２にＡ．Ｙ２を代入することで、重なり領域Ｒの各座標を求める。

　一方、顔検出処理部１４０は、顔候補領域Ａの座標と顔候補領域Ｂの座標とを比較して、Ａ．Ｙ２がＢ．Ｙ１とＢ．Ｙ２との間に存在し、更に、Ａ．Ｘ２がＢ．Ｘ１とＢ．Ｘ２の間に存在している場合には、顔候補領域Ａの右下が顔候補領域Ｂと重なっていると判定し、
重なり領域ＲのＲ．Ｘ２にＡ．Ｘ２を代入し、
重なり領域ＲのＲ．Ｙ２にＡ．Ｙ２を代入することで、重なり領域Ｒの各座標を求める。

（ＧＩＤの割り当て）
　顔検出処理部１４０は、上記の重なり判定および重なり領域Ｒの抽出を行った後に、重なり領域Ｒの面積／顔候補領域Ａの面積
を算出し、算出結果が閾値以上の場合に、下記の規則に従って顔候補領域Ａおよび顔候補領域ＢのＧＩＤを判定する。

　具体的には、顔検出処理部１４０は、顔候補領域Ａおよび顔候領域ＢのＧＩＤが０の場合には、顔候補領域ＡのＧＩＤおよび顔候補領域ＢのＧＩＤに共通の番号を割り振ることで、顔候補領域Ａ，Ｂを集約する。ただし、顔候補領域ＡのＧＩＤと顔候補領域ＢのＧＩＤに割り振るＧＩＤは、他のグループと重複しない番号にする。

　一方、顔候補領域Ａまたは顔候補領域ＢのＧＩＤの一方が０以外の場合には、０でないほうのＧＩＤを他のＧＩＤに割り振る。例えば、顔候補領域ＡのＧＩＤが１で、顔候補領域ＢのＧＩＤが０の場合には、顔候補領域ＢのＧＩＤを１に設定する。

　顔検出処理部１４０は、動画像データから抽出したフレームの画像に対する顔候補領域の抽出および各顔候補領域の集約が終了した場合には、次のフレームを動画像データから抽出し、上述した処理を繰り返す。

（顔領域の判定）
　顔検出処理部１４０は、実検出結果管理テーブル１３０ｄに基づいて、フレーム中の画像データから検出した顔候補領域が顔領域であるか否かを判定する。具体的に、顔検出処理部１４０は、実検出結果管理テーブル１３０ｄから、該当する顔候補領域を選択し、選択した顔候補領域が属するＧＩＤに他の顔候補領域が属している場合には（所定の領域に複数の顔画像領域が存在している場合には）、選択した顔候補領域を顔画像領域として判定し、判定結果を出力する。

　また、顔候補検出部１４０は、連続する各フレームの顔候補領域の座標に基づいて、顔候補領域が顔画像であるか否かを判定する。ここで、説明の便宜上、第１フレームで検出した顔候補画像を第１顔候補領域とし、第１フレームの次の第２フレームで検出した顔候補領域を第２顔候領域とする。

　顔候補検出部１４０は、第１顔候補領域の座標と、第２顔候補領域の座標とを比較し、各座標の距離が閾値未満の場合に、第２顔候補領域を顔領域であると判定し、判定結果を出力する。また、顔候補検出部１４０は、各グループの座標の平均値を算出することで、座標平均を算出し、算出した座標平均を実検出結果管理テーブル１３０ｄに登録する。

　ところで、顔候補検出部１４０は、上記の方法により顔画像を抽出した場合には、次のフレームの顔画像周辺に対して顔候補領域を抽出する際に、顔らしいと判定する閾値を下げてもよい。

　例えば、顔候補検出部１４０は、前フレームにて顔画像を抽出した領域に検出範囲を設定し、図７のごとく比較対象データ１３０ｃ、顔学習データ１３０ａ、非顔学習データ１３０ｂを比較して、顔候補領域を検出する場合に、各顔学習データ１３０ａと比較対象データ１３０ｃのヒット数に所定値を加えることで、顔候補領域を検出し易くしてもよい。

　次に、本実施例にかかる画像処理装置１００の処理手順について説明する。図１０は、本実施例にかかる画像処理装置１００の処理手順を示すフローチャートである。図１０に示すように、画像処理装置１００は、入力画像データをスキャンし（ステップＳ１０１）、検出結果集約処理を実行する（ステップＳ１０２）。

　画像処理装置１００は、実検出結果を保存し（ステップＳ１０３）、実検出結果を一つ取り出し（ステップＳ１０４）、前回の実検出結果の中に座標の重なるもの（あるいは各座標の距離が閾値未満のもの）が存在するか否かを判定する（ステップＳ１０５）。

　画像処理装置１００は、前回の実検出結果の中に座標の重なるものが存在する場合には（ステップＳ１０６，Ｙｅｓ）、実検出結果に対応する領域を顔領域と判定し（ステップＳ１０７）、ステップＳ１１０に移行する。

　一方、画像処理装置１００は、前回の実検出結果の中に座標の重なるものが存在しない場合には（ステップＳ１０６，Ｎｏ）、複数の顔候補領域が密集しているか否かを判定する（ステップＳ１０８）。

　画像処理装置１００は、複数の顔候補領域が密集している場合には（ステップＳ１０９，Ｙｅｓ）、ステップＳ１０７に移行する。一方、複数の顔候補領域が密集していない場合には（ステップＳ１０９，Ｎｏ）、実検出結果の残りが存在するか否かを判定する（ステップＳ１１０）。

　画像処理装置１００は、実検出結果の残りが存在する場合には（ステップＳ１１１，Ｙｅｓ）、ステップＳ１０４に移行する。一方、実検出結果の残りが存在しない場合には（ステップＳ１１１，Ｎｏ）、処理を終了する。

　次に、図１０のステップＳ１０２に示した検出結果集約処理の処理手順について説明する。図１１は、検出結果集約処理の処理手順を示すフローチャートである。図１１に示すように、画像処理装置１００は、ＧＩＤを０に初期化し（ステップＳ２０１）、ＭａｘＧＩＤを０に初期化し（ステップＳ２０２）、ｉｉを０に設定する（ステップＳ２０３）。

　画像処理装置１００は、ｉｉ＋１がＮより小さいか否かを判定する（ステップＳ２０４）。ここで、Ｎには、図１０のステップＳ１０１において、入力画像をスキャンした結果得られた顔候補領域の数が登録されている。

　画像処理装置１００は、ｉｉ＋１がＮより小さくない場合には（ステップＳ２０５，Ｎｏ）、実検出結果管理テーブル１３０ｄ中でＧＩＤが０の結果にＭａｘＧＩＤを１増やしながら順にＭａｘＧＩＤの値をＧＩＤに設定する（ステップＳ２０６）。そして、画像処理装置１００は、グループ毎に座標平均を算出して集約後の結果として出力する（ステップＳ２０７）。

　一方、画像処理装置１００は、ｉｉ＋１がＮよりも小さい場合には（ステップＳ２０５，Ｙｅｓ）、ｊｊをｉｉ＋１に初期化し（ステップＳ２０８）、ｊｊがＮよりも小さいか否かを判定する（ステップＳ２０９）。

　画像処理装置１００は、ｊｊがＮよりも小さくない場合には（ステップＳ２１０，Ｎｏ）、ｉｉに１を加算し（ステップＳ２１１）、ステップＳ２０４に移行する。一方、ｊｊがＮよりも小さい場合には（ステップＳ２１０，Ｙｅｓ）、重なり判定処理を実行し（ステップＳ２１２）、ｊｊをｉｉに１を加算し（ステップＳ２１３）、ステップＳ２０９に移行する。

　次に、図１１のステップＳ２１２に示した重なり判定処理の処理手順について説明する。図１２および図１３は、重なり判定処理の処理手順を示すフローチャートである。図１２に示すように、画像処理装置１００は、顔候補領域識別番号[ｉｉ]および顔候補識別番号[ｊｊ]のうち、領域の小さいほうをＡ、領域の大きいほうをＢに設定し（ステップＳ３０１）、Ａの横幅／Ｂの横幅が閾値よりも小さいか否かを判定する（ステップＳ３０２）。

　画像処理装置１００は、Ａの横幅／Ｂの横幅が閾値よりも小さい場合には（ステップＳ３０３、Ｙｅｓ）、重なり判定処理を終了する。一方、Ａの横幅／Ｂの横幅が閾値以上の場合には（ステップＳ３０３，Ｎｏ）、ＡのＧＩＤとＢのＧＩＤが共に０以外の値か否かを判定する（ステップＳ３０４）。

　画像処理装置１００は、ＡのＧＩＤとＢのＧＩＤが共に０以外の値である場合には（ステップＳ３０５，Ｙｅｓ）、重なり判定処理を終了する。一方、ＡのＧＩＤとＢのＧＩＤが共に０以外の値でない場合には（ステップＳ３０５，Ｎｏ）、重なり領域ＲのＲ．Ｘ１、Ｒ．Ｙ１、Ｒ．Ｘ２、Ｒ．Ｙ２をＢ．Ｘ１、Ｂ．Ｙ１、Ｂ．Ｘ２、Ｂ．Ｙ２に設定する（ステップＳ３０６）。

　そして、画像処理装置１００は、Ａ．Ｙ１がＢ．Ｙ１とＢ．Ｙ２の間に存在するか否かを判定し（ステップＳ３０７）、存在する場合には（ステップＳ３０８，Ｙｅｓ）、第１の重なり領域処理を実行し（ステップＳ３０９）、ステップＳ３１０に移行する。

　一方、画像処理装置１００は、Ａ．Ｙ１がＢ．Ｙ１とＢ．Ｙ２の間に存在しない場合には（ステップＳ３０８，Ｎｏ）、ステップＳ３１０に移行する。

　一方、画像処理装置１００は、Ａ．Ｙ２がＢ．Ｙ１とＢ．Ｙ２の間に存在するか否かを判定し（ステップＳ３１０），存在する場合には（ステップＳ３１１，Ｙｅｓ）、第２の重なり領域処理を実行し（ステップＳ３１２）、重なり領域Ｒの面積／Ａの面積が閾値以上であるか否かを判定する（ステップＳ３１３）。

　画像処理装置１００は、重なり領域Ｒの面積／Ａの面積が閾値未満である場合には（ステップＳ３１４，Ｎｏ）、重なり判定処理を終了する。一方、閾値以上である場合には（ステップＳ３１４，Ｙｅｓ）、ＡのＧＩＤおよびＢのＧＩＤが両方とも０であるか否かを判定する（ステップＳ３１５）。

　画像処理装置１００は、ＡのＧＩＤおよびＢのＧＩＤが両方とも０でない場合には（ステップＳ３１６，Ｎｏ）、０でない方のＧＩＤの値をもう一方のＧＩＤに代入し（ステップＳ３１７）、重なり判定処理を終了する。

　一方、画像処理装置１００は、ＡのＧＩＤおよびＢのＧＩＤが両方とも０の場合には（ステップＳ３１６，Ｙｅｓ）、ＭＡＸＧＩＤに１を加算し（ステップＳ３１８）、ＭＡＸＧＩＤをＡのＧＩＤおよびＢのＧＩＤに代入し（ステップＳ３１９）、重なり判定処理を終了する。

　次に、図１２のステップＳ３０９に示した第１の重なり領域処理について説明する。図１４は、第１の重なり領域処理の処理手順を示すフローチャートである。図１４に示すように、画像処理装置１００は、Ａ．Ｘ１がＢ．Ｘ１とＢ．Ｘ２の間に存在するか否かを判定し（ステップＳ４０１）、存在する場合には（ステップＳ４０２，Ｙｅｓ）、Ａ．Ｘ１をＲ．Ｘ１に代入し、Ａ．Ｙ１をＲ．Ｙ１に代入（ステップＳ４０３）する。存在しない場合には（ステップＳ４０２）、ステップＳ４０４に移行する。

　次に、画像処理装置１００は、Ａ．Ｘ２がＢ．Ｘ１とＢ．Ｘ２の間に存在するか否かを判定し（ステップＳ４０４）、存在する場合には(ステップＳ４０５，Ｙｅｓ)、Ａ．Ｘ２をＲ．Ｘ２に代入し、Ａ．Ｙ１をＲ．Ｙ１に代入し（ステップＳ４０６）、第１の重なり領域処理を終了する。存在しない場合には（ステップＳ４０５，Ｎｏ）、第１の重なり領域処理を終了する。

　次に、図１２のステップＳ３１２に示した第２の重なり領域処理について説明する。図１５は、第２の重なり領域処理の処理手順を示すフローチャートである。図１５に示すように、画像処理装置１００は、Ａ．Ｘ１がＢ．Ｘ１とＢ．Ｘ２の間に存在するか否かを判定し（ステップＳ５０１）、存在する場合には（ステップＳ５０２，Ｙｅｓ）、Ａ．Ｘ１をＲ．Ｘ１に代入し、Ａ．Ｙ２をＲ．Ｙ２に代入（ステップＳ５０３）する。存在しない場合には（ステップＳ５０２，Ｎｏ）、ステップＳ５０４に移行する。

　次に、画像処理装置１００は、Ａ．Ｘ２がＢ．Ｘ１とＢ．Ｘ２の間に存在するか否かを判定し（ステップＳ５０４）、存在する場合には(ステップＳ５０５，Ｙｅｓ)、Ａ．Ｘ２をＲ．Ｘ２に代入し、Ａ．Ｙ２をＲ．Ｙ２に代入し（ステップＳ５０６）、第２の重なり領域処理を終了する。存在しない場合には（ステップＳ５０５，Ｎｏ）、第２の重なり領域処理を終了する。

　上述してきたように、本実施例にかかる画像処理装置１００は、顔候補領域が所定の領域に複数存在しているか否か（顔候補領域が属するＧＩＤに他の顔候補領域が属しているか否か）によって、顔画像を抽出するので、顔画像を正確に抽出でき、顔画像の誤検出を防止することができる。また、かかる画像処理装置は、複数のフレームを参照することなく、単一のフレームによって誤検出を防止することができる。

　また、本実施例にかかる画像処理装置１００は、前後のフレーム間に存在する顔候補領域の位置関係から、顔画像を抽出するので、顔画像を正確に抽出でき、顔画像の誤検出を防止することができる。
　以上、本実施例においては、顔候補領域を検出する処理についても詳述したが、顔候補領域を検出する処理は、本方法に限定されたものではない。例えば、［非特許文献１］H.Schneiderman　and　T.　Kanade,　Object　Detection　Using　the　Statistics　of　Parts　To　appear　in　International　Journal　of　Computer　Vision,2002.を用いて候補領域を設定してもよい。

　ところで、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

　また、図３に示した画像処理装置１００の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。なお、本実施例で説明した各種の処理手順は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。

　図１６は、本実施例にかかる画像処理装置１００（画像処理装置２００）を構成するコンピュータのハードウェア構成を示す図である。図１６に示すように、このコンピュータ（画像処理装置）３０は、入力装置３１、モニタ３２、ＲＡＭ（Random　Access　Memory）３３、ＲＯＭ（Read　Only　Memory）３４、ネットワークを介して他の装置と通信を行う通信制御装置３５、記憶媒体からデータを読み出す媒体読取装置３６、カメラ３７、ＣＰＵ（Central　Processing　Unit）３８、ＨＤＤ（Hard　Disk　Drive）３９をバス４０で接続している。

　そして、ＨＤＤ３９には、上述した画像処理装置１００の機能と同様の機能を発揮する画像処理プログラム３９ｂが記憶されている。ＣＰＵ３８が、画像処理プログラム３９ｂを読み出して実行することにより、画像処理プロセス３８ａが起動される。

　ここで、画像処理プロセス３８ａは、図３の変換処理部１１０、分析処理部１２０、顔検出処理部１４０に対応する。また、ＨＤＤ３９は、画像処理装置１００の記憶部１３０に記憶される情報に対応する各種データ３９ａを記憶する。ＣＰＵ３８は、ＨＤＤ３９に格納された各種データ３９ａを読み出して、ＲＡＭ３３に格納し、ＲＡＭ３３に格納された各種データ３３ａを利用して、顔画像を検出する。

　ところで、図１６に示した画像処理プログラム３９ｂは、必ずしも最初からＨＤＤ３９に記憶させておく必要はない。たとえば、コンピュータに挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」、または、コンピュータの内外に備えられるハードディスクドライブ（ＨＤＤ）などの「固定用の物理媒体」、さらには、公衆回線、インターネット、ＬＡＮ、ＷＡＮなどを介してコンピュータに接続される「他のコンピュータ（またはサーバ）」などに画像処理プログラム３９ｂを記憶しておき、コンピュータがこれらから画像処理プログラム３９ｂを読み出して実行するようにしてもよい。

Claims

　顔画像の特徴を有する辞書データを記憶する記憶手段と、
　動画像の入力を受け付ける入力手段と、
　前記動画像に含まれる複数のフレームの内、一つのフレームを処理対象フレームとし、当該処理対象フレームに含まれる画像データと前記辞書データとを基にして前記処理対象フレームから顔画像の特徴を含んだ領域を示す顔画像候補領域を抽出する抽出手段と、
　前記抽出手段により、前記処理対象フレーム内の第一領域に対して複数個の前記顔画像候補領域が抽出された場合に、前記第一領域を、顔画像を含む領域であると判定する判定手段と、
　を有することを特徴とする画像処理装置。
　前記抽出手段は、前記処理対象フレーム内の第一領域から単一の前記顔画像候補領域を抽出した場合に、前記処理対象フレームよりも時間的に後に出現するフレームを処理対象フレームに設定して、当該処理対象フレームから前記顔画像候補領域を抽出し、前記判定手段は、前記抽出手段により、時間的に前後する処理対象フレームの前記第一領域と同一または当該第一領域の近傍に位置する第二領域に前記顔画像領域候補が抽出された場合に、前記第二領域を、顔画像を含む領域であると判定することを特徴とする請求項１に記載の画像処理装置。
　前記抽出手段は、前記処理対象フレームの画像データと前記辞書データとが一致する度合が閾値以上となる領域を前記顔画像候補領域として抽出し、
　前記判定手段によって、前記第一領域または第二領域に顔画像が含まれていると判定された場合に、前記抽出手段は、前記第一領域または第二領域において前記顔画像候補領域の抽出を実行する際に利用する前記閾値を調整することを特徴とする請求項２に記載の画像処理装置。
　画像処理装置が、
　顔画像の特徴を有する辞書データを記憶装置に記憶する記憶ステップと、
　動画像の入力を受け付ける入力ステップと、
　前記動画像に含まれる複数のフレームの内、一つのフレームを処理対象フレームとし、当該処理対象フレームに含まれる画像データと前記辞書データとを基にして前記処理対象フレームから顔画像の特徴を含んだ領域を示す顔画像候補領域を抽出する抽出ステップと、
　前記抽出ステップにより、前記処理対象フレーム内の第一領域に対して複数個の前記顔画像候補領域が抽出された場合に、前記第一領域を、顔画像を含む領域であると判定する判定ステップと、
　を含んだことを特徴とする画像処理方法。
　前記抽出ステップは、前記処理対象フレーム内の第一領域から単一の前記顔画像候補領域を抽出した場合に、前記処理対象フレームよりも時間的に後に出現するフレームを処理対象フレームに設定して、当該処理対象フレームから前記顔画像候補領域を抽出し、前記判定ステップは、前記抽出ステップにより、時間的に前後する処理対象フレームの前記第一領域と同一または当該第一領域の近傍に位置する第二領域に前記顔画像領域候補が抽出された場合に、前記第二領域を、顔画像を含む領域であると判定することを特徴とする請求項４に記載の画像処理方法。
　前記抽出ステップは、前記処理対象フレームの画像データと前記辞書データとが一致する度合が閾値以上となる領域を前記顔画像候補領域として抽出し、
　前記判定ステップによって、前記第一領域または第二領域に顔画像が含まれていると判定された場合に、前記抽出ステップで利用する前記閾値を調整する調整ステップをさらに含んだこと特徴とする請求項５に記載の画像処理方法。
　コンピュータに、
　顔画像の特徴を有する辞書データを記憶装置に記憶する記憶手順と、
　動画像の入力を受け付ける入力手順と、
　前記動画像に含まれる複数のフレームの内、一つのフレームを処理対象フレームとし、当該処理対象フレームに含まれる画像データと前記辞書データとを基にして前記処理対象フレームから顔画像の特徴を含んだ領域を示す顔画像候補領域を抽出する抽出手順と、
　前記抽出手順により、前記処理対象フレーム内の第一領域に対して複数個の前記顔画像候補領域が抽出された場合に、前記第一領域を、顔画像を含む領域であると判定する判定手順と、
　を実行させることを特徴とする画像処理プログラム。
　前記抽出手順は、前記処理対象フレーム内の第一領域から単一の前記顔画像候補領域を抽出した場合に、前記処理対象フレームよりも時間的に後に出現するフレームを処理対象フレームに設定して、当該処理対象フレームから前記顔画像候補領域を抽出し、前記判定手順は、前記抽出手順により、時間的に前後する処理対象フレームの前記第一領域と同一または当該第一領域の近傍に位置する第二領域に前記顔画像領域候補が抽出された場合に、前記第二領域を、顔画像を含む領域であると判定することを特徴とする請求項７に記載の画像処理プログラム。
　前記抽出手順は、前記処理対象フレームの画像データと前記辞書データとが一致する度合が閾値以上となる領域を前記顔画像候補領域として抽出し、
　前記判定手順によって、前記第一領域または第二領域に顔画像が含まれていると判定された場合に、前記抽出手順で利用する前記閾値を調整する調整手順をさらに実行させることを特徴とする請求項８に記載の画像処理プログラム。