JP3823760B2 - Robot equipment - Google Patents
Robot equipment Download PDFInfo
- Publication number
- JP3823760B2 JP3823760B2 JP2001158402A JP2001158402A JP3823760B2 JP 3823760 B2 JP3823760 B2 JP 3823760B2 JP 2001158402 A JP2001158402 A JP 2001158402A JP 2001158402 A JP2001158402 A JP 2001158402A JP 3823760 B2 JP3823760 B2 JP 3823760B2
- Authority
- JP
- Japan
- Prior art keywords
- person
- identification
- face
- dictionary
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
- Image Analysis (AREA)
- Manipulator (AREA)
- Image Processing (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、映像中の人物を識別する技術に関し、特に、正面顔による人物識別技術、並びに人物を識別するロボット装置に関する。
【0002】
【従来の技術】
顔の映像を用いて人物を識別する方式は、従来よりいくつか提案されている。最近の顔検出、識別技術の動向は、例えば文献(1)(赤松 茂、“コンピュータによる顔の認識−サーベイ−”、電子情報通信学会論文誌、Vol.J80-D-II,No.8,pp.2031-2046,August 1997)に記載されている。一般に、顔識別システムは、画像中から顔を検出する処理と、顔パターンからの特徴抽出処理と、特徴量を辞書データと比較する人物識別処理と、を備えて構成されている。
【0003】
顔画像の検出方式としては、文献(2)(小杉 信、“個人識別のための多重ピラミッドを用いたシーン中の顔の探索・位置決め”、電子情報通信学会論文誌、Vol.J77-D-II,No.4,pp.672-681,April 1994)に記載されているように濃淡パターンを用いたテンプレートマッチングを行うものや、文献(3)(M.Turk, A.Pentland, “Face Recognition on Using Eigenfaces”, Proceedings of IEEE,CVPR91)に記載されているような、顔画像の固有ベクトル投影距離方式が知られている。
【0004】
また、例えば特開平9−251534号公報には、目、鼻、口といった造作を検出し、その位置関係から正面顔濃淡パターンを切り出す方法も提案されている。
【0005】
顔検出の代表的な例として、M.Turkらによる固有ベクトル投影距離方式について説明する。
【0006】
あらかじめ多くの正面顔データ(数百枚)を用意する。それらの画素値を特徴ベクトルとして、固有値と固有ベクトルを求める。固有値の大きい順にp個の固有ベクトルVn(n=1,..p)を求める。
【0007】
テスト画像tを固有ベクトルVnに投影すると、p個の投影値が得られる。これらの投影値と、固有ベクトルVn から、テスト画像を再構成することにより、再構成テスト画像t’が得られる。
【0008】
もしもtが顔パターンに近ければ、再構成テスト画像t’も顔パターンに近い画像が得られる。そこで次式(1)で与えられる距離尺度Dtによって、顔であるかどうかを判断する。
【0009】
【0010】
顔識別の特徴量としては、目、鼻、口といった顔造作の幾何学的特徴を用いるものと、大局的な濃淡パターンの照合によるものとの2種類があるが、シーン中の顔パターンは、顔の向きや表情が変化すると造作の位置関係も変化するため、近時、後者の大局的な濃淡パターンを用いる方法が現在主流となっている。
【0011】
顔画像の識別、照合方法としては例えば、上記文献(2)(小杉 信、“個人識別のための多重ピラミッドを用いたシーン中の顔の探索・位置決め”、電子情報通信学会論文誌、Vol.J77-D-II,No.4,pp.672-681,April 1994)では、濃淡パターンを特徴ベクトルと考え、特徴ベクトル間の内積が大きいカテゴリを識別結果としている。 また、上記文献(3)(M.Turk, A.Pentland, “Face Recognition on Using Eigenfaces”, Proceedings of IEEE,CVPR91)では、顔画像の固有ベクトルへの投影値を特徴ベクトルとし、それらのユークリッド距離の小さいカテゴリを識別結果としている。
【0012】
また従来、画像認識機能を持ったロボット装置としては、例えば特願平10−151591号に記載された装置がある。このロボット装置は、画像中から色情報を抽出し、色パターンに応じて動作を変化させることができる。しかしながら、人物を認識する機能手段は具備していない。
【0013】
【発明が解決しようとする課題】
上記した従来のシステムは下記記載の問題点を有している。
【0014】
第一の問題点は、家庭環境のように照明条件が一定でない環境では人物識別が出来ないということである。
【0015】
その理由は、一般環境における顔の検出が困難であるためである。例えばテンプレートマッチング法は、画像中の顔パターンと辞書パターンとがほとんど濃度値でない限り、検出することは困難であり、照明方向が少しでもずれていたり、あるいは辞書の人物と異なる人物の場合には、ほとんど検出不可能である。一方、固有ベクトル投影距離方式は、テンプレートマッチングに比べると、検出性能は高いものの、照明方向が違っていたり、また複雑な背景を持つ画像では、同様に、検出は失敗する。
【0016】
また、照明条件が一定でない環境で人物識別が出来ないもう一つの理由は、従来の特徴抽出方式と識別方式が、照明変動による特徴量の変動を吸収できないためである。
【0017】
したがって、本発明は、上記問題点に鑑みてなされたものであって、その目的は、家庭環境のような一般環境において人物を識別できるロボット装置を提供することにある。
【0018】
したがって、本発明の他の目的は、一般環境において安定して人物を識別できるロボット装置を提供することにある。
【0019】
【課題を解決するための手段】
前記目的を達成する本発明に係るロボット装置は、人物識別装置として、画像を取得する映像取得手段と、画像中から人間の頭部を検出する頭部検出追跡手段と、検出された頭部の部分画像中から正面顔画像を取得する正面顔位置合わせ手段と、正面顔画像を特徴量に変換する顔特徴抽出手段と、識別辞書を用いて特徴量から人物を識別する顔識別手段と、識別辞書を保存する識別辞書記憶手段とを備えたことを特徴とする。そして頭部検出追跡手段において、1枚の画像から頭部を検出する単眼視頭部矩形座標検出手段と、対面距離値と頭部矩形座標値とから頭部の誤検出を取り除く対面距離評価手段とを備え、ロボットの動作を制御する全体制御部と、全体制御部の指示で音声を発話するスピーカと、全体制御部の指示でロボットを移動する移動手段と、前方の物体との距離を測定する対面距離センサと、タッチセンサと、マイクと、音声認識手段とを備えたことを特徴とする。
【0020】
本発明において、前記全体制御部は、人物識別結果が得られたときに、人物毎に異なる音声で発話するよう制御する。
【0021】
本発明において、前記全体制御部が、前記人物識別装置から前方物体との対面距離と方向を取得する手段と、人物識別結果を取得する手段と、前記対面距離がしきい値以上の場合には、前記前方物体に近づくように移動する手段と、前記対面距離がしきい値以下のときは、人物識別結果を人物毎に異なる音声で発話するように制御する手段と、を備える。
【0022】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照して詳細に説明する。
【0023】
図1は、本発明に係るロボット装置で用いられる人物識別装置の一実施の形態の構成を示す図である。図1を参照すると、本発明の一実施の形態をなす人物識別装置14は、映像取得手段2と、対面距離センサ5と、人物検出識別手段1と、人物検出識別管理部13と、辞書データ管理部12と、を備えている。映像取得手段2は、右カメラ3と左カメラ4とを備え、それぞれのカメラ映像情報を取得する。対面距離センサ5は、カメラの光軸と同じ方向に設置されており、映像中の物体との対面距離を計測する。対面距離センサ5の例として、超音波センサ、赤外線センサなどがある。人物検出識別管理部13は、人物検出識別手段1に対する動作開始命令と動作終了命令の送信と、辞書データ管理部12への特徴データ送信、辞書作成命令の送信を行なう。
【0024】
本発明の一実施の形態において用いられるカメラとしては、例えばビデオカメラ、デジタルCCDカメラ等を含み、動きのある情景を、静止画像の連続として出力することのできる撮影デバイスを総称している。
【0025】
人物検出識別手段1は、頭部検出追跡手段6と、正面顔位置合わせ手段7と、顔特徴抽出手段8と、顔識別手段9と、識別辞書記憶手段10と、識別結果補正手段11とを備えている。
【0026】
人物検出識別手段1は、人物検出識別管理部13から動作開始命令を受けると、辞書データ管理部12から識別辞書記憶手段10に識別用辞書をロードした後、動作を開始する。
【0027】
図18は、本発明の一実施の形態における人物検出識別手段1の処理を説明するための流れ図である。図1及び図18を参照して、人物検出識別手段1の動作を説明する。
【0028】
はじめに、頭部検出追跡手段6は、映像取得手段2からの画像情報と、対面距離センサ5の読み取り値をもとに、現在のフレームにおける人物の頭部の数と、頭部矩形座標を出力する(ステップS1)。
【0029】
次に、検出した頭部数を評価する(ステップS2)。検出した頭部数が0の場合には、次のフレームの映像を入力して頭部検出を行い、検出数が1以上になるまで、ステップS1は継続される。
【0030】
頭部検出数が1以上の時、正面顔位置合わせ手段7に検出結果が送信される。正面顔位置合わせ手段7では、顔領域の探索処理を行い(ステップS3)、正面顔領域が見つかったかどうかを判断する(ステップS4)。
【0031】
正面顔が見つかると、顔中心部の矩形画像である正面顔画像を出力する。ステップS3とステップS4の処理は、頭部の誤検出を排除し、さらに人物がカメラの正面を向いている映像のみを抽出して後段の処理に送る事を目的としている。正面顔を発見できなかったときは、再びステップS1から処理を行う。
【0032】
正面顔を発見した時は、次に顔特徴抽出手段8において、正面顔画像を特徴量データに変換する(ステップS5)。
【0033】
顔特徴抽出手段8の一例は、図8に示すように、正面顔画像を左から右へ1ライン毎にスキャンし、上から下へ1ライン終われば次のラインをスキャンして1次元データを生成し(「ラスタスキャン」という)、それを特徴データとして用いるものである。その他、1次微分フィルタや2次微分フィルタを用いてフィルタリングし、エッジ情報を抽出したものを、ラスタスキャンして特徴データとする方法を用いてもよい。
【0034】
次に、顔識別手段9において、識別辞書記憶手段10の辞書データを参照して顔識別処理を行う(ステップS6)。
【0035】
次に、識別結果補正手段11において、過去mフレーム分(mは2以上の整数)の識別結果との統合処理を行い(ステップS7)、その結果を、人物検出識別管理部13に出力する(ステップS8)。
【0036】
この時、頭部検出追跡手段6(ステップS1)において、複数の頭部矩形を検出し、それらを全て処理していない時は(ステップS9のNo分岐)、もう一度正面顔位置合わせ手段7による(ステップS3)から処理を行なう。人物検出識別手段1は、人物識別管理部13から終了指示を受けて終了する(ステップS10)。終了指示があるまでは再びステップS1から処理を継続して行う。
【0037】
図2は、図1の頭部検出追跡手段6の一実施例をなす頭部検出追跡手段27の構成を示す図である。図2を参照すると、頭部検出追跡手段27は、頭部検出手段21と、頭部追跡手段22と、頭部矩形座標記憶手段23とを備えている。頭部検出手段21は、頭部矩形座標検出手段24と、左右画像照合手段25と、対面距離統合手段31と、対面距離評価手段26とを備えている。
【0038】
図19は、頭部検出追跡手段27の処理を説明するための流れ図である。図2及び図19を参照して、本発明の一実施例をなす頭部検出追跡手段27の動作を説明する。
【0039】
右カメラの映像と左カメラの映像と、対面距離センサの読み取り値が頭部検出手段21に入力される。頭部検出手段21は、入力された情報から人物頭部の検出処理を行い、頭部矩形座標と頭部検出数を出力する(ステップS10)。
【0040】
頭部検出数が1以上の場合には、頭部検出数と頭部矩形座標を、頭部矩形座標記憶手段23に保存した後に、出力する(ステップS18)。
【0041】
頭部検出数が0の場合には、頭部追跡手段22において、前のフレームにおける頭部矩形情報を、頭部矩形記憶手段23から取り出し、頭部追跡処理を行う(ステップS19)。
【0042】
頭部追跡に成功した場合には、追跡に成功した頭部数と頭部矩形座標を出力し、追跡に失敗した場合には検出数0を出力する(ステップS20)。
【0043】
次に、図19のステップ10の頭部検出手段21の動作について詳細に説明する。頭部検出手段21では、まず左右どちらか一方の映像を頭部矩形座標検出手段24に入力し、仮頭部検出数と仮頭部矩形座標を得る(ステップS11)。
【0044】
図2に示した頭部矩形座標検出手段24では右カメラ映像を用いている。次に、左右画像照合手段25において、得られた頭部矩形座標と左右カメラの映像を用いて、ステレオ視の原理をもとに対面距離値を算出する(図19のステップS12)。
【0045】
図6を参照して、図2の左右画像照合手段25の動作を説明する。右カメラ画像において検出された頭部矩形を、頭部検出矩形51とする。そして頭部検出矩形51内の画像データを用いて、左カメラ画像の同じ検出座標位置の近傍を探索する。探索方法の一例はテンプレートマッチングである。右カメラ画像の濃淡値をFR(x,y)、左カメラ画像の濃淡値をFL(x,y)、矩形の横サイズをTw、縦サイズをThとすると、テンプレートの左上始点位置が、左カメラ画像の(sx,sy) にある時のマッチング距離Dtmは、次式(2)で表される。
【0046】
【0047】
上式(2)は、右カメラと左カメラの部分画像間のユークリッド距離を表している。Dtmが最も小さい時の左カメラ画像上の座標を、探索結果52とする。探索結果52が求まると、次に左右の矩形座標値を比較し、人物頭部への距離を算出する。
【0048】
図32を参照して、対象物への距離算出方法の一例を示す。図32は、左右のカメラを使って、ある一つの対象物体403を撮影している状況を、上から見た図である。右カメラ401と左カメラ402が、間隔Cを空けて平行に設置されている。カメラの画角はθで左右共に同じとする。カメラの撮像面の横方向の長さをeとする。この状態で、右カメラ画像には、対象物403が座標 Xr に写っており、左カメラ画像には座標Xlに写っている。なお画像の最大横サイズはW画素である。この時、カメラ撮像面から、対称物403までの対面距離Zは、次式(3)で算出することができる。
【0049】
ここで、eは通常1cm未満の小さい値であることから、0として近似計算することもできる。以上のようにして、左右カメラ画像から対面距離を算出する。
【0050】
そして、左右画像照合手段25において、ステレオ視によって対面距離を算出した後、対面距離統合手段31において、対面距離センサ30の出力値をもとに、対面距離の統合処理を行う(図19のステップS13)。実験的に、超音波センサ等の距離センサは、距離が1m未満の場合には非常に精度が高い。一方、1m以上の遠い距離では誤差が大きくなる傾向にある。
【0051】
ステレオ視により算出された距離値は、カメラの画角にもよるが概ね3m程度まで有効であるが、距離が近すぎると、かえって誤差が大きくなる傾向にある。そこで、両者の距離値を統合する方法として、対面距離センサ30の出力があるしきい値Tよりも小さい場合には、対面距離センサの値を採用し、しきい値Tよりも大きい場合にはステレオ視による距離値を採用するという方法が用いられる。
【0052】
対面距離を統合した後、対面距離評価手段26において、対面距離値と画像中の頭部矩形座標値から、頭部の実際のサイズを算出する(図19のステップS14)。
【0053】
算出結果が、人間の頭の大きさにほぼ一致すれば、本当に頭部を検出したと判定する。算出結果が実際の頭のサイズから著しくかけ離れる場合には、誤検出であると判断する(図19ステップS15)。例えば、頭部の横サイズが12cmプラスマイナス2cm以内で、かつ縦サイズが20cmプラスマイナス4cm以内の場合は頭部と見做し、それ以外の場合は頭部ではない、と判断する。
【0054】
実際のサイズに合っている場合には、検出数を1増やす(図19ステップS16)。
【0055】
評価していない仮頭部矩形座標が残っている時は(図19のステップS17のNo分岐)、再びステップS12から処理を行う。頭部検出手段21は仮頭部矩形座標を全て評価し終わった時点で(図19のステップS19のYes分岐)、頭部検出数と頭部矩形座標を出力する。
【0056】
次に、図2に示した頭部矩形座標検出手段24について説明する。図4は、頭部矩形座標検出手段24の一実施例をなす頭部矩形座標検出手段41の構成を示す図である。図4を参照すると、頭部矩形座標検出手段41は、動き画素検出手段42と、ノイズ除去手段47と、人物数評価手段43と、頭頂座標検出手段44と、頭部下部座標検出手段45と、側頭座標検出手段46とを備えている。
【0057】
図20は、頭部矩形座標検出手段41の処理を説明するための流れ図である。図20、図4、及び図5を参照して、頭部矩形座標検出手段41の動作について説明する。
【0058】
まず動き画素検出手段42において、画面内で動きのある画素群を検出する。入力画像データと、それより1つ前に入力された画像データとの差分をとり、差分画像gを生成する(ステップS21)。
【0059】
さらに過去mフレーム分(mは2以上の整数)の差分画像gを加算し平均をとる事によって、統合差分画像Gを得る(ステップS22)。統合差分画像Gは、動きのない領域の画素値が0で、動きのある領域ほど画素値が大きい値を取る。
【0060】
統合差分画像Gは、ごま塩ノイズを多く含むので、ノイズ除去手段47において、ノイズ除去処理を行う(ステップS23)。ノイズ除去処理の例としては、膨張収縮処理や、メジアンフィルタ処理などがある。これらのノイズ除去処理は、画像処理の分野で一般的であり、当業者にとってよく知られている処理が用いられるので、その詳細な構成は省略する。
【0061】
次に、図4の人物数評価手段43において、画面内に何人の人間がいるのかを評価する。人物数評価手段43の動作について説明する。図5は、統合差分画像Gの取得の例を説明するための図である。
【0062】
はじめに、人物1人だけを検出する方法について説明する。統合差分画像G48が得られたとすると、まず動き領域があるかどうかを判定する(図20のステップS24)。ここで動き領域とは、動きのある画素が占める領域を表わす。この動き領域がない、すなわち統合差分画像Gが全て0の場合には、人物数は0と判定する。それ以外の場合人物数は1とする。
【0063】
次に、複数人物を検出する方法について説明する。統合差分画像G49が得られたとすると、まず動き領域の有無を調べる(図20のステップS24)。動き領域がない場合は人物数0である。動き領域がある場合、統合差分画像Gを参照して、何人いるのかを判定する(図20のステップS25)。判定方法としては、例えば統合差分画像上部領域50における動き領域幅の最大値が、あるしきい値よりも小さいときは1人、大きいときは2人、とする方法がある。人物数が2人のときは、人物が横に並んでいると仮定し、統合差分領域Gを、部分領域1と部分領域2に分割する。なお3人以上検出の場合も、分割数を増やすことで対応できる。頭部矩形を求める際には、部分領域1と部分領域2のそれぞれに対して、以下に述べる同じ処理(図20のステップS26からステップS29まで)を繰り返せばよい。
【0064】
次に、統合差分画像Gから頭部矩形座標を求める処理について説明する。各スキャンライン毎に動き領域幅47を求める(図20のステップS26)。
【0065】
動き領域幅47は、各スキャンラインにおいて動き領域のx座標最大値と最小値の差分を表している。
【0066】
次に頭頂座標検出手段44によって頭頂のY座標を求める(図20のステップS27)。頭頂座標の求め方としては、動き領域のY座標の最小値を頭頂とする方法がある。
【0067】
次に、頭部下部座標検出手段45によって、頭部矩形の底辺のY座標を求める(図20のステップS28)。頭部矩形の底辺座標を求め方としては、頭頂から下方向(Y方向)に探索し、動き領域幅47が動き領域幅の平均値dmよりも小さいラインを求め、そのラインの中でY座標が最も大きいところを、頭部矩形の底辺とする方法を用いてもよい。
【0068】
次に側頭座標検出手段46によって、頭部矩形の左右のx座標を求める(図20のステップS29)。左右のx座標の求め方としては、頭頂から頭部下部までの範囲で最も動き領域幅47が大きなラインにおける動き領域の左右端の座標を求める方法を用いてもよい。
【0069】
人物数が2つ以上の場合には、図20のステップS26からステップS29までの処理を部分領域毎に繰り返す。
【0070】
次に、図2の頭部追跡手段22の動作について、図7を参照して説明する。追跡処理は、頭部矩形座標検出に用いたカメラ画像(図2では右カメラ画像)に対して行なう。まず前フレームの頭部矩形座標53と前フレームの頭部矩形画像55を、頭部矩形記憶手段23から読み出す。
【0071】
次に、現フレームにおいて、前フレームの頭部矩形座標53の近傍領域をテンプレートマッチングによって探索し、最も距離値の小さい所を追跡結果とする。
【0072】
図3は、図1の頭部検出追跡手段6の他の実施例をなす頭部検出追跡手段32の構成を示す図である。図3を参照すると、この頭部検出追跡手段32は、頭部検出手段33と、頭部矩形記憶手段23と、頭部追跡手段22とを備えている。図2に示した実施例との相違点としては、頭部検出手段33が、頭部矩形座標検出手段24と、対面距離評価手段26とを持ち、単眼のカメラ34と対面距離センサ30の出力を用いて検出を行なっていることである。すなわち、左右のステレオ視による対面距離は考慮せず、対面距離センサの読み取り値のみを用いて頭部矩形の評価を行なうものである。
【0073】
また、頭部検出追跡手段6のその他の実施例として、対面距離センサを用いずに、左右カメラのみの情報から対面距離を求め、頭部矩形を評価するという構成の頭部検出手段を用いてもよい。この構成の場合、頭部検出手段21において、図2の対面距離統合手段31を除いた構成となる。
【0074】
図9は、図1の正面顔位置合わせ手段7の一実施例をなす正面顔位置合わせ手段61の構成を示す図である。図9を参照すると、正面顔位置合わせ手段61は、頭部矩形切り取り手段62と、正面顔探索手段63と、正面顔らしさ判定手段65とを備えて構成されている。
【0075】
正面顔らしさ判定手段65は、濃度分散判定手段66と、しきい値処理手段67とを備えている。
【0076】
図21は、正面顔位置合わせ手段61の処理を説明するための流れ図である。図9及び図21を参照して、正面顔位置合わせ手段61の動作について説明する。正面顔位置合わせ手段61は、画像データと頭部矩形座標と対面距離が入力されると、正面顔有無フラグと正面顔画像データを出力する。入力された画像データは、頭部矩形切り取り手段62において、頭部矩形による部分画像に切り取られる(ステップS41)。この部分画像を「頭部矩形画像」と呼ぶ。
【0077】
次に正面顔探索手段63において、頭部矩形画像の中から、正面顔領域を探索し、正面顔画像と標準顔辞書とのパターン間距離又は類似度を出力する(ステップS42)。
【0078】
次に、正面顔らしさ判定手段65において、正面顔画像が本当に正面顔であるかどうかを判断する(ステップS43)。ここで正面顔であると判断されれば、正面顔有無フラグは「有り」となり、正面顔画像を出力する。正面顔ではないと判断すれば、正面顔有無フラグは「無し」となり、正面顔画像は出力しない。
【0079】
正面顔らしさ判定手段65は、濃度分散判定手段66と、しきい値処理手段67とを備えている。
【0080】
濃度分散判定手段66は、正面顔画像データの濃淡値の分散を求め、あるしきい値以下の場合には、正面顔ではないと判断する(図21のステップS44)。
【0081】
濃度分散判定手段66により、単調な壁のようなパターンを排除することができる。
【0082】
しきい値手段67は、パターン間距離又は類似度をしきい値処理することによって正面顔らしさを判断する(図21のステップS45)。
【0083】
パターン間距離値の場合には、しきい値以上のときに正面顔ではないと判断する。類似度の場合は、しきい値以下のときに、正面顔でないと判断する。
【0084】
図12は、正面顔位置合わせ手段61の動作を模式的に示す説明図である。頭部矩形151が検出されているとすると、図21のステップS41によって、頭部矩形画像152が生成される。
【0085】
次に図21のステップS42の顔中心部探索処理では、縮小頭部矩形画像153が生成された後に正面顔画像155が得られる。
【0086】
なお、正面顔画像とは、図12の正面顔画像155に示すような、顔の中心部分の画像であり、横方向は、両目を完全に含む程度で、縦方向は、眉毛から口全体を含む程度の領域の画像を意味する。
【0087】
図10は、正面顔探索手段63の一実施例をなす正面顔探索手段71の構成を示す図である。図10を参照すると、この正面顔探索手段71は、頭部矩形画像記憶手段89と、頭部中間サイズ算出手段88と、画像縮小手段90と、中間サイズ記憶手段91と、正面顔候補抽出手段72と、中間縮小画像記憶手段73と、コントラスト補正手段74と、固有ベクトル投影距離算出手段75と、標準顔辞書記憶手段76と、記憶手段77と、投影距離最小判定手段78と、探索範囲終了判定手段79と、多重解像度処理終了判定手段92とを備えて構成されている。
【0088】
固有ベクトル投影距離算出手段75は、平均差分手段82と、ベクトル投影値算出手段83と、再構成演算手段84と、投影距離計算手段85とを備えて構成されている。
【0089】
標準顔辞書記憶手段76は、標準顔平均データ記憶手段80と、標準顔固有ベクトルデータ記憶手段81とを備えて構成されている。
【0090】
記憶手段77は、投影距離最小値記憶手段86と、正面顔濃淡値記憶手段87とを備えて構成されている。
【0091】
図22は、正面顔探索手段71の処理を説明するための流れ図である。図10及び図22を参照して、正面顔探索手段71の動作について説明する。頭部矩形画像データは、頭部矩形画像記憶手段89に保持されている。はじめに頭部中間サイズ算出手段88において、対面距離値と標準顔辞書データのサイズを参照して、頭部矩形画像の中間縮小サイズを計算する(ステップS101)。
【0092】
頭部中間サイズ算出手段88の処理例について説明する。中間縮小サイズは、図12の縮小頭部矩形画像153の縦横サイズとして示されている。頭部矩形画像152の横サイズをHw、縦サイズをHhとする。中間縮小サイズの横サイズをMw、縦サイズをMhとする。また正面顔画像の横サイズをFw、縦サイズをFhとする。Fw,Fhは正面顔探索形状154の縦横サイズと同一であり、標準顔辞書に対して一意に決定される。なお、Hh,Hw,Mh,Mw、Fh,Fwはすべて画素単位のピクセルサイズである。
【0093】
標準顔辞書は、図12の正面顔画像155に示す正面顔領域の濃淡値を特徴値として生成されたパターン認識用の辞書である。正面顔領域とは、横方向は両目を完全に含む程度で、縦方向は眉毛から口全体を含む程度の領域を意味する。正面顔領域は必ずしも矩形である必要はなく、楕円形など、両目、鼻、口を含む任意の連続領域で実現可能である。ただし、形状が矩形であれば処理が単純化されて高速化することができるので、実装形態として有効である。よって、以下では、正面顔領域を矩形であるものとして説明する。
【0094】
正面顔領域の実際の縦横サイズを、RFh、RFwとすると、男性の大人であれば、大体 RFw=10cm、RFh=15cm程度で表わすことができる。一方、頭部矩形画像の実際の縦横サイズRHh、RHwは、対面距離Zが既知であるため、次式(4)によって、計算することができる。なお次式(4)の変数は、図32に対応している。
【0095】
【0096】
撮像面の幅eは小さいので通常は無視して計算しても問題ない。
【0097】
標準顔辞書を用いて頭部矩形画像を探索するためには、頭部矩形画像を標準顔辞書と同じ解像度に変換する必要がある。その変換後のサイズが中間縮小サイズMw、Mhである。Mh、Mwは、次式(5)の関係式から求めることができる。
【0098】
【0099】
すなわち、頭部中間サイズ算出手段88において、RFw、RFhを1組指定することによって中間縮小サイズMw、Mhを1組算出することができる。しかし人間の正面顔の大きさは大人から子供、女性と男性で異なっている。そこで、RFw、RFhを複数組用意し、それぞれに対応する中間縮小サイズを算出することも可能となっている。あらかじめ複数算出することにより、後段の正面顔探索処理を複数の中間縮小サイズで処理することができる。また複数の中間縮小サイズで探索処理することは、頭部矩形を複数の解像度で探索処理する行為と同じであると解釈できる。
【0100】
頭部中間サイズ算出手段88によって中間サイズが算出されると、中間サイズ記憶手段91に中間サイズの情報が記憶される。
【0101】
次に最小パターン間距離値 Dmin を、通常得られるパターン間距離値に比べ十分大きな値に初期化する(図22のステップS102)。
【0102】
中間縮小サイズ記憶手段91の情報を1つ選択し、画像縮小手段90において、頭部矩形画像を選択した中間縮小サイズに縮小し、縮小頭部矩形画像を得る(図22のステップS103)。
【0103】
次に正面顔探索位置SX,SYを0に初期化する(図22のステップS104)。
【0104】
次に正面顔候補抽出手段72において、探索位置SX,SYにおける正面顔候補画像を抽出する(図22のステップS105)。
【0105】
次に正面顔候補画像を明暗の調子を補正するため、コントラスト補正手段74によってコントラストを補正する(図22のステップS106)。
【0106】
コントラスト補正の具体的な方法の例について説明する。正面顔候補画像が、0からvmaxまでの値をとるものとし、画素値の平均をμ、標準偏差をσとすると、元画像Vからコントラスト補正画像V’への変換式は、次式(6)で表わすことができる。
【0107】
【0108】
再び図10及び図22を参照すると、次に、固有ベクトル投影距離算出手段75において、正面顔候補画像と標準顔パターンとの固有ベクトル投影距離Dを求める(ステップS107)。
【0109】
次に、投影距離最小判定手段78において、DとDminとを比較する。このときDがDminよりも小さい値であれば、DminにDを代入して値を更新し、投影距離最小値記憶手段86に記憶する。同時に正面顔候補画像を、正面顔濃淡値記憶手段87に記憶する(ステップS108)。
【0110】
次に、探索範囲終了判定手段79において、探索位置SX、SYをインクリメントし(ステップS109)、頭部矩形を全て探索し終わったかどうかを判断する(ステップS110)。まだ探索し終わっていないときは、再びステップ105より処理を繰り返す。
【0111】
頭部矩形の探索範囲を全て探索し終わったら、多重解像度処理終了判定手段92において、すべての中間縮小サイズで探索したか否かを判断する(ステップS111)。もし、探索していない中間縮小サイズがあれば、異なる中間縮小サイズを用いて再びステップS103から処理を開始する。すべての中間縮小サイズで探索が終了した時点で正面顔探索手段71は終了する。
【0112】
次に、図10の固有ベクトル投影距離算出手段75の動作について説明する。
【0113】
標準顔辞書記憶手段76には、標準顔平均データと、標準顔固有ベクトルデータが記憶されている。
【0114】
図33に、特徴量の数がp個の時の、固有ベクトル投影距離算出用辞書の一例を示す。固有ベクトル投影距離算出用辞書は、1からp番めまでのp次元の固有ベクトルデータEと、p個の特徴量の平均値Aveとからなる。特徴量がp個のとき、固有ベクトルはp番めまで存在するが、投影距離算出時には1からm番めまでを使用する。
【0115】
正面顔候補画像の画素値を、図8に示すようにラスタスキャンし、1次元の特徴データに変換する。このとき正面顔画像の縦横サイズの積Fw×Fhは、辞書の特徴量と同じp個でなければならない。これをベクトルX:X1、X2,...Xpとする。
【0116】
まず平均差分手段82において、ベクトルXから平均ベクトルAveを差分する。これをベクトルYとする。
【0117】
【0118】
次にベクトル投影値算出手段83において、ベクトルYをm個の固有ベクトルに投影し、その投影値R1..Rmを求める。投影値算出方法を、次式(8)に示す。
【0119】
【0120】
次に、再構成演算手段84(図10参照)において、投影値R1...Rmと、m個の固有ベクトルとを用いて元の特徴量Yを再構成し、その再構成ベクトルをY’とする。再構成の計算を次式(9)に示す。
【0121】
【0122】
次に、投影距離計算手段85において、次式(10)に従い、YとY‘とのユークリッド距離値を求める。これによって、固有ベクトルEへの投影距離Dが算出される。
【0123】
【0124】
図11は、図9の正面顔探索手段63の他の実施例をなす正面顔探索手段101の構成を示す図である。図11を参照すると、この正面顔探索手段101は、頭部矩形画像記憶手段89と、頭部中間サイズ算出手段88と、画像縮小手段90と、中間サイズ記憶手段91と、正面顔候補抽出手段72と、中間縮小画像記憶手段73と、コントラスト補正手段74と、積和演算手段102と、標準顔辞書データ記憶手段104と、記憶手段105と、類似度最大判定手段103と、探索範囲終了判定手段79と、多重解像度処理終了判定手段92とを備えて構成されている。
【0125】
記憶手段105は、類似度最大値記憶手段106と、正面顔濃淡値記憶手段107とを備えている。
【0126】
図23は、正面顔探索手段101の処理を説明するための流れ図である。図11及び図23を参照して、正面顔探索手段101の動作について説明する。頭部矩形画像データは、頭部矩形画像記憶手段89に保持されている。はじめに頭部中間サイズ算出手段88において、対面距離値と標準顔辞書データのサイズを参照して、頭部矩形画像の中間縮小サイズを計算し、中間サイズ記憶手段91に記憶する(ステップS121)。
【0127】
中間縮小サイズの計算方法は正面顔探索手段71と同一である。次に最大類似度Smaxを0に初期化する(ステップS122)。
【0128】
中間サイズ記憶手段91の情報を1つ選択し、画像縮小手段90において、頭部矩形画像を選択した中間縮小サイズに縮小し、縮小頭部矩形画像を得る(ステップS123)。
【0129】
次に正面顔探索位置SX、SYを0に初期化する(ステップS124)。
【0130】
次に正面顔候補抽出手段72において、探索位置SX、SYにおける正面顔候補画像を抽出する(ステップS125)。
【0131】
次に正面顔候補画像を明暗の調子を補正するため、コントラスト補正手段74によってコントラストを補正する(ステップS126)。
【0132】
次に積和演算手段102において、正面顔候補画像と標準顔パターンとの類似度Sを求める(ステップS127)。
【0133】
次に類似度最大値判定手段103において、SとSmaxとを比較する。このときSがSmaxよりも大きい値であれば、SmaxにSを代入して値を更新し、類似度最大値記憶手段106に記憶する。同時に正面顔候補画像を正面顔濃淡値記憶手段107に記憶する(ステップS128)。
【0134】
次に探索範囲終了判定手段79において、探索位置SX、SYをインクリメントし(ステップS129)、頭部矩形を全て探索し終わったかどうかを判断する(ステップS130)。まだ探索し終わっていないときは、再びステップ125より処理を繰り返す。
【0135】
頭部矩形の探索範囲を全て探索し終わったら、多重解像度処理終了判定手段92において、すべての中間縮小サイズで探索したかどうかを判断する。もし探索していない中間縮小サイズがあれば、異なる中間縮小サイズを用いて再びステップS123から処理を開始する。
【0136】
すべての中間縮小サイズで探索が終了した時点で正面顔探索手段101は終了する。
【0137】
次に、図11に示した、標準顔パターンとの類似度を算出する積和演算手段102の動作について説明する。
【0138】
積和演算手段102は、正面顔かそれ以外かを判別する線形判別辞書を参照して類似度Sを算出する。図34に、線形判別辞書の一例を示す。図34には、q個のクラスを判別する辞書が示されているが、標準顔辞書データ記憶手段104は、正面顔とそれ以外の2つのクラスを判別する辞書であり、q=2の場合に相当する。
【0139】
正面顔候補画像の画素値を、図8に示すようにラスタスキャンし、1次元の特徴データに変換する。このとき正面顔画像の縦横サイズの積Fw×Fhは、辞書の特徴量と同じp個でなければならない。これをベクトルX:X1、X2,...Xpとする。
【0140】
また標準顔辞書データとして、q=1のクラスが正面顔を、q=2のクラスがそれ以外を表わすものとして説明する。正面顔との類似度は、図34のq=1の行、すなわちクラス1の識別係数422のみを用いて、次式(11)によって計算することができる。
【0141】
【0142】
積和演算手段102は、上式(11)を演算することによって、類似度を算出する。
【0143】
図13には、図1の顔識別手段9の一実施例をなす顔識別手段111と、図1の識別辞書記憶手段10の一実施例をなす識別辞書記憶手段112と、図1の識別結果補正手段11の一実施例をなす識別結果補正手段113とが示されている。図13を参照すると、顔識別手段111は、特徴データ記憶手段115と、積和演算手段116と、最大類似度人物判定手段118と、しきい値処理手段117とを備えて構成されている。識別辞書記憶手段112は、登録人物識別用辞書記憶手段119を有する。識別結果補正手段113は、識別結果加重平均算出手段114を有する。
【0144】
図24は、顔識別手段111と識別結果補正手段113の処理を説明するための流れ図である。図13及び図24を参照して、顔識別手段111と識別結果補正手段113の動作について説明する。
【0145】
特徴データが入力され、特徴データ記憶手段115に記憶される(ステップS51)。
【0146】
次に、登録人物識別用辞書記憶手段119のデータを参照し、積和演算手段116において、登録された人物への類似度を、人物毎にそれぞれ算出する(ステップS54)。
【0147】
類似度の算出方法は、標準顔パターンとの類似度を算出する積和演算手段102の動作と基本的に同じである。ただし、識別するクラス数は登録されている人物数となる。
【0148】
辞書としてq人分のデータが登録されている場合には、登録人物識別用辞書記憶手段119には、図34に示す線形判別辞書と同じ数のデータが保持されることになる。そして積和演算手段116により、次式(12)に示すように、q個の類似度Si:(i=1,...q)が得られる。
【0149】
【0150】
このように、図34に示す線形判別辞書による積和演算処理で求められた類似度の大きさによってパターンを識別する方法を、「線形判別辞書による類似度識別」と呼ぶ。
【0151】
再び図13及び図24を参照すると、次に、最大類似度人物判定手段118において、算出されたq個の類似度の中で最大値を求め、それに対応する人物を求める(ステップS55)。すなわち、特徴データと最も似ていると判断される人物を求める。この時の類似度を「最大類似度」と呼ぶ。
【0152】
次に、しきい値処理手段117において、最大類似度をあらかじめ定められたしきい値と比較する(ステップS56)。
【0153】
顔識別手段111は、最大類似度がしきい値よりも高いときは、確かに人物を識別したと判断し、そのID番号と最大類似度を出力する。最大類似度がしきい値よりも低いときは、登録されている人物(本人)ではない他人である可能性が高いので、「他人」という情報を出力する。
【0154】
識別結果補正手段113は、識別結果を受け取った後、識別結果加重平均算出手段114によって、過去Nフレームにおける識別結果を統合する(ステップS57)。識別結果加重平均算出手段114の動作の例として、過去Nフレームにおける識別人物IDと類似度、あるいは他人判定結果を、以下のように加重平均する方法がある。
【0155】
ステップA1:過去Nフレームの中で、一定割合のフレーム数が「他人」の時は、「他人」とする。他人でないと判定された場合にはステップA2へ進む。
【0156】
ステップA2:過去Nフレームの中で、人物iという判定がNiフレームあるものとする(i=1...q)。それぞれの人物の類似度加重平均値を次式(13)で算出する。Siは人物iの類似度を表し、SSiは人物iの類似度加重平均値を表す。SSiの最も大きい人物IDを、識別結果として出力する。
【0157】
【0158】
識別結果補正手段113は、上記のようにして統合された識別結果を出力する。
【0159】
図15は、図1の顔識別手段9の他の実施例をなす顔識別手段131の構成、図1の識別辞書記憶手段10の他の実施例をなす識別辞書記憶手段132の構成を示す図である。図15を参照すると、顔識別手段131は、特徴データ記憶手段115と、固有ベクトル他人判別手段133と、積和演算手段116と、最大類似度人物判定手段118と、しきい値処理手段117とを備えている。
【0160】
識別辞書記憶手段132は、他人判別用辞書記憶手段134と、登録人物識別用辞書記憶手段119とを備えている。
【0161】
図24は、顔識別手段131の処理を説明するための流れ図である。図15及び図24を参照して、顔識別手段131の動作について説明する。特徴データが入力され、特徴データ記憶手段115に記憶される(ステップS51)。
【0162】
次に、他人判別用辞書記憶手段134のデータを参照しながら、固有ベクトル他人判別手段133によって、登録されている人物群とのパターン間距離Dhを求め(ステップS52)、パターン間距離Dhがしきい値よりも大きければ他人であると判定する(ステップS53)。パターン間距離Dhは固有ベクトル投影距離として算出する。すなわち、他人判別用辞書記憶手段には、登録されている全員の特徴データによって作成された固有ベクトル辞書が記憶されている。
【0163】
固有ベクトル辞書の例は図33に示されており、また固有ベクトル投影距離の算出方法は、固有ベクトル投影距離算出手段75の動作の説明において述べられている。
【0164】
入力された特徴データが、固有ベクトル他人判別手段133において他人と判断されれば、顔識別手段131は、積和演算手段116を経ることなく、直ちに「他人」を出力する。
【0165】
固有ベクトル他人判定手段133において「他人」と判定されなかった場合には、次に、登録人物識別用辞書記憶手段119のデータを参照し、積和演算手段116において、登録された人物への類似度を、人物毎にそれぞれ算出する(ステップS54)。q人の人物が登録されていればq個の類似度Si:(i=1,...q)を算出する。
【0166】
次に、最大類似度人物判定手段118において、算出されたq個の類似度の中で最大値を求め、それに対応する人物を求める(ステップS55)。すなわち、特徴データと最も似ていると判断される人物を求める。この時の類似度を最大類似度と呼ぶ。次にしきい値処理手段117において、最大類似度をあらかじめ定められたしきい値と比較する(ステップS56)。
【0167】
顔識別手段131は、最大類似度がしきい値よりも高いときは、確かに人物を識別したと判断し、そのID番号と最大類似度を出力する。最大類似度がしきい値よりも低いときは、登録されている人物ではない他人である可能性が高いので、「他人」という情報を出力する。
【0168】
図14は、図1の辞書データ管理部12の一実施例をなす辞書データ管理部121の構成を示す図である。図14を参照すると、辞書データ管理部121は、個人特徴データ記憶手段122と、識別辞書生成手段123と、セレクタ124とを備えて構成されている。
【0169】
識別辞書生成手段123は、線形判別辞書作成手段126と固有ベクトル辞書作成手段127とを備えて構成されている。個人特徴データ記憶手段122内には、人物別特徴データ領域125が、登録された人数分存在する。
【0170】
辞書データ管理部121は、特徴データと人物ID番号とが入力されると、セレクタ124によって人物ID毎に振り分けられ、個人特徴データ記憶手段122内の人物ID番号に対応する領域に入力特徴データを記憶する。また、新しい人物IDの追加命令があれば、個人特徴データ記憶手段122内に、新しい人物別特徴データ領域125を確保し、新しい人物ID番号を割り当てる。また、既存の人物IDの削除命令があれば、個人特徴データ記憶手段122内の該当するIDの人物別特徴データ領域125を破棄する。
【0171】
また辞書データ管理部121は、識別辞書作成命令を受けると、識別辞書生成手段123は、個人特徴データ記憶手段122のデータを用いて、線形判別辞書である登録人物識別用識別辞書と固有ベクトル辞書である他人判別用辞書を生成する。登録人物識別用識別辞書は、線形判別辞書作成手段126において作成される。他人判別用辞書は、固有ベクトル辞書作成手段127で作成される。
【0172】
なお、図1の顔識別手段9が、図13に示した顔識別手段111の構成を持つ場合は、他人判別用辞書は不要であるため、識別辞書生成手段123は固有ベクトル辞書作成手段127を持たない構成としてもよい。
【0173】
図25は、図1の辞書データ管理部12への登録処理を説明するための流れ図である。図1、図14及び図25を参照して、辞書データ管理部121がカメラの前にいる新しい人物を登録する時の動作について説明する。
【0174】
人物検出識別管理部13は、新しい人物IDを指定して、辞書管理部121に新しい人物の登録を指示する(ステップS61)。
【0175】
辞書データ管理部121は、個人特徴データ記憶手段122内に、指定されたIDに対応する人物別特徴データ領域125を確保する(ステップS62)。
【0176】
人物検出識別管理部13は、人物検出識別手段1内の顔特徴抽出手段8から指定枚数分の特徴データを取得し、辞書データ管理部121に送付する。
【0177】
辞書データ管理部121は、新しいIDに対応する人物別特徴データ領域125に、取得したデータを保存する(ステップS63)。
【0178】
指定枚数分の取得が完了したら、人物検出識別管理部13は、辞書データ管理部121に対して識別辞書の作成を指示する(ステップS64)。
【0179】
辞書データ管理部121は、作成指示を受けると、識別辞書生成手段123の線形判別辞書作成手段126によって、登録人物用識別辞書を作成する(ステップS65)。
【0180】
次に、固有ベクトル辞書作成手段127によって、他人判別用辞書を作成する(ステップS66)。
【0181】
そして、作成された辞書を人物検出識別部の識別辞書記憶手段10に出力し記憶させる(ステップS67)。以上の処理により、新規人物の登録処理は終了する。
【0182】
図29は、図14の線形判別辞書作成手段126の一実施例をなす線形判別辞書作成手段311の構成を示す図である。図29を参照すると、線形判別辞書作成手段311は、特徴量X記憶手段312と、分散共分散行列Cxx算出手段313と、逆行列変換手段314と、行列乗算手段315と、目的変数Y記憶手段317と、目的変数Y生成手段318と、共分散行列Cxy算出手段319と、係数記憶手段320と、定数項算出手段316とを備えて構成されている。
【0183】
図31及び図34を参照して、線形判別辞書の作成方法について説明する。図31には、1人あたりn枚で、人物1から人物qまでq人分の個人特徴データX341が示されている。また、個人特徴データX341の特徴数はp個である。図31の1行が、1枚分の特徴データを示している。個人特徴データX341は、図14において個人特徴データ記憶手段122に記憶されており、1人分の個人特徴データがそれぞれ人物別特徴データ領域125に記憶されている。
【0184】
目的変数Y342は、1つの特徴データについて1つ作成され、識別する人物数分の要素を持つベクトルである。すなわち、図31において、人物IDは1からqまでの値をとるので、目的変数YはY1からYqまで存在する。目的変数Y342の値は、0か1の2値であり、特徴データが属する人物のベクトル要素が1で、その他は0である。すなわち人物2の特徴データであれば、Y2要素だけが1で他は0となる。
【0185】
図34は、線形判別辞書の形式の一例を示す図である。線形判別辞書は、定数項421と、乗算項425の2種類の係数からなる。乗算項からなるマトリクスをAij(i=1,...p、j=1,....q)、定数項からなるベクトルをA0j(j=1,....q)とすると、マトリクスAijは、次式(14)から求められる。
【0186】
【0187】
上式(14)において、Cxxは個人特徴データX341の全てのデータを用いたこの分散共分散行列である。この分散共分散行列Cxxは、次式(15)で算出される。
【0188】
個人特徴データXの要素を、xij:(i=1....N、j=1,...p)で表わす。Nは全データ数で、pは特徴数である。図31に示す例では、1人につきn枚のデータがあることから、N=nqである。x ̄は、xの平均値を表わす。
【0189】
【0190】
Cxyは、個人特徴データXと目的変数Yとの共分散行列である。共分散行列Cxyは、次式(16)に従って算出される。x ̄、y ̄は、x、yの平均値を表わす。
【0191】
【0192】
また、定数項A0jは、次式(17)に従って算出される。
【0193】
【0194】
はじめにCxxを算出し、その逆行列を求める。次にCxyを求める。最後にこれらの行列を乗算して乗算項マトリクスAijを求め、最後に定数項A0jを求める。
【0195】
図29は、線形判別辞書作成手段311の処理を説明するための図である。図29を参照して、線形判別辞書作成手段311の動作を説明する。入力された個人特徴データ群は、特徴量X記憶手段312に記憶される。
【0196】
入力された個人特徴データ群と人物IDを用いて、目的変数Y生成手段318によって目的変数Yが生成される。生成した目的変数Yは、目的変数Y記憶手段317に記憶される。
【0197】
次に、分散共分散行列Cxx算出手段313において、分散共分散行列Cxxを算出する。
【0198】
次に、逆行列変換手段314において、分散共分散行列Cxxの逆行列を算出する。
【0199】
次に、共分散行列Cxy算出手段319において、共分散行列Cxyを算出する。
【0200】
次に、行列乗算手段315において、乗算項Aijを算出し、係数記憶手段320に乗算項Aijデータを記憶する。
【0201】
次に、定数項算出手段316において、定数項A0jを算出し、係数記憶手段320に記憶する。
【0202】
最後に、係数記憶手段320のデータを出力して終了する。
【0203】
なお、図31では、0と1の2値データを示したが、線形判別辞書作成手段311においては、0と100等の他の2値データを用いることも可能である。
【0204】
図30は、図14の固有ベクトル辞書作成手段127の一実施例をなす固有ベクトル辞書作成手段331を示す図である。固有ベクトル辞書作成手段331は、特徴量記憶手段332と、特徴量平均算出手段333と、分散共分散行列算出手段334と、固有ベクトル算出手段335と、係数記憶手段336と備えて構成されている。
【0205】
図31と図33とを参照して、固有ベクトル辞書の作成方法について説明する。個人特徴データXの要素を、xij:(i=1....N、j=1,...p)で表わす。
【0206】
はじめにXの特徴量ごとの平均値を求める。次に、Xの分散共分散行列Cxxを、上式(15)を用いて算出する。分散共分散行列Cxxの固有ベクトルを求める。固有ベクトルを求める方法は、当業者によって広く知られており、本発明とは直接関係しないことから、その詳細は省略する。
【0207】
以上の操作により、図33に示すような形式の固有ベクトル辞書が得られる。固有ベクトルは特徴量の数(p個)だけ得られる。図33では、1行分が1つの固有ベクトルを表わしている。
【0208】
図30は、固有ベクトル辞書作成手段331の構成及び処理を説明するための図である。図30を参照して、固有ベクトル辞書作成手段331の動作について説明する。
【0209】
個人特徴データが入力されると、特徴量記憶手段332に記憶される。
【0210】
次に、特徴量平均算出手段333において、特徴量の平均値を求め、係数記憶手段336に記憶する。次に分散共分散行列算出手段334において、分散共分散行列Cxxを算出する。
【0211】
次に、固有ベクトル算出手段335において、分散共分散行列Cxxの固有ベクトルを算出し、係数記憶手段336に記憶する。最後に、係数記憶手段336のデータを出力して終了する。
【0212】
図16は、本発明に係るロボット装置の一実施の形態の構成を示す図である。図16を参照すると、このロボット装置201は、CCDカメラ202と、人物検出識別手段203と、辞書データ管理部204と、人物検出識別管理部205と、全体制御部206と、スピーカ207と、ロボット移動手段208とを備えている。ロボット移動手段208は、モータ209と、車輪210とを備えている。
【0213】
人物検出識別手段203は、CCDカメラ202からのステレオ映像を基に、人物検出と識別を行なっている。人物検出識別管理部205は、人物検出識別手段203との情報のやり取り、全体制御部206との情報のやり取り、辞書データ管理部204との情報のやり取りを行なっている。スピーカ207は全体制御部206に接続され、全体制御部206の指示で発話することができる。また全体制御部206は、ロボット移動手段208に移動指示を送る。ロボット移動手段208はモータ209と複数の車輪210を持ち、ロボットを自由な方向に移動させることができる。
【0214】
図26は、本発明に係るロボット装置の一実施の形態の処理を説明するための図である。図16及び図26を参照して、本発明の一実施の形態のロボット装置201の動作について説明する。ロボット装置201は、人物を検出すると、人物の方向に移動して近づいていき、予め定められた所定の距離以内に近づいたら人物識別を行なう。
【0215】
人物検出識別管理部205は、人物検出識別手段203内の頭部検出追跡手段から、検出した頭部の矩形情報と、対面距離値を取得し、全体制御部206に送信する(ステップS71)。
【0216】
全体制御部206では対面距離値を参照し、対面距離がしきい値よりも近いかどうかを判定する(ステップS73)。距離がしきい値よりも遠いときは、ロボット移動手段208に指令して、人物の方向に前進する(ステップS72)。
【0217】
人物の存在する概略的な方向は、画像内の頭部矩形座標から類推することができる。ステップS71からステップS73を繰り返し、対面距離がしきい値よりも近くなったら、全体制御部206は、人物検出識別管理部205から人物識別結果を取得する(ステップS74)。
【0218】
次に、人物別の音声をスピーカ207から発声し、人物識別したことを対話者に知らせる(ステップS75)。
【0219】
図17は、本発明のロボット装置の一実施例の構成を示す図である。図17を参照すると、ロボット装置221は、CCDカメラ202と、対面距離センサ223と、タッチセンサ222と、人物検出識別手段224と、辞書データ管理部204と、人物検出識別管理部205と、全体制御部227と、マイク225と、音声認識手段226と、スピーカ207と、ロボット移動手段208とを備えて構成されている。ロボット移動手段208は、モータ209と、車輪210とを備えている。
【0220】
人物検出識別手段224は、CCDカメラ202からのステレオ映像と、対面距離センサ223との情報を元に、人物検出と識別を行なっている。人物検出識別管理部205は、人物検出識別手段224との情報のやり取り、全体制御部227との情報のやり取り、辞書データ管理部204との情報のやり取りを行なっている。スピーカ207は全体制御部227に接続され、全体制御部227の指示で発話することができる。また全体制御部227は、ロボット移動手段208に移動指示を送る。ロボット移動手段208はモータ209と複数の車輪210を持ち、ロボットを自由な方向に移動させることができる。タッチセンサ222は、全体制御部227に接続されており、外部から物体の接触の有無と、接触の強さを検出する。マイク225は音声認識手段226に接続され、音声認識手段226は全体制御部227に接続されている。音声認識手段226は、マイク225からの音声データから、人の言葉を自動認識し、認識結果を、全体制御部に送信する。
【0221】
図27は、本発明の一実施例のロボット装置の処理を説明するための流れ図である。図17及び図27を参照して、本発明の一実施例のロボット装置221の動作例について説明する。
【0222】
ロボット装置221は、対面している人物の検出識別を行ない、対話者の反応によって識別辞書を更新することによって、人物画像の逐次学習を行なう。
【0223】
全体制御部227は、人物検出識別管理部205から人物識別結果を取得する(ステップS81)。
【0224】
次に識別した人物毎に特定の動作を行なう(ステップS82)。特定の動作とは、人の名前を発声したり、人によって車輪を特定方向に動かしたりする行為全体を差す。
【0225】
次に、対話者の反応がセンスされるのを待つ(ステップS83)。対話者の反応が得られたときは、次にその反応がポジティブなものかネガティブなものかを判定する(ステップS84)。ポジティブな反応とは、「Yes」という意味であり、例えば音声認識で,「はい」を認識した時などがある。
【0226】
ネガティブな反応とは、「No」という意味であり、例えば音声認識で,「いいえ」を認識した時などがある。
【0227】
また、例えば、あらかじめタッチセンサを1度押下すると「はい」、2度押下すると「いいえ」という規則を予め全体制御部で決めておくことで、タッチセンサを用いて対話者の反応を取得することができる。
【0228】
ステップS84がネガティブな反応の場合は、もう一度ステップS81から動作を繰り返す。ポジティブな反応の場合には、識別に使用した顔特徴データを辞書データ管理部204に入力する(ステップS85)。
【0229】
そして識別辞書を作成し更新する(ステップS86)。
【0230】
終了指示があれば終了し、なければ、再びステップS81から動作を繰り返す(ステップS87)。
【0231】
図28は、本発明のロボット装置の他の実施例の処理を説明するための流れ図である。図17及び図28を参照して、本発明の他の実施例をなすロボット装置221の動作の例について説明する。ロボット装置221は、対面している人物の検出識別を行ない、対話者の命令によって新しい人物の画像を取得し、新しい人物辞書を登録する。
【0232】
全体制御部227は、人物検出識別管理部205から人物識別結果を取得する(ステップS91)。
【0233】
次に識別した人物毎に特定の動作を行なう(ステップS92)。特定の動作とは、人の名前を発声したり、人によって車輪を特定方向に動かしたりする行為全体を差す。
【0234】
次に、対話者の命令がセンスされるのを待つ(ステップS93)。対話者の命令イベントが得られると、次にその命令イベントが登録命令かどうかを判定する(ステップS94)。登録命令イベントは、例えば音声認識で「とうろく」を認識したというイベントがある。また、あらかじめタッチセンサを1度たたくと登録イベントである、という規則を予め全体制御部で決めておくことにより、タッチセンサを用いて登録命令イベントを発声させることができる。
【0235】
登録命令が来たときは、登録処理を行い、新しい人物の登録を行なう(ステップS95)。登録処理ステップS95の一例は、図25に示されており、既に説明済みである。
【0236】
登録処理が終了すると、再びステップS91から処理を開始する。登録命令イベントが来なかった場合は、終了判定を行なう(ステップS96)。
【0237】
終了命令があれば終了し、終了命令がない場合は、再びステップS91から処理を開始する。
【0238】
図35は、本発明の関連発明に係る人物検出識別システムの一実施の形態の構成を示す図である。図35を参照すると、本発明の関連発明に係る人物検出識別システムは、映像取得手段2と、対面距離センサ5と、人物検出識別手段501と、辞書データ管理部12と、人物検出識別管理部502と、記録媒体503とを備えている。記録媒体503には、人物検出識別処理プログラムを記録しており、磁気ディスク、半導体メモリ、CD-ROMその他の記録媒体であってよい。
【0239】
人物検出識別処理プログラムは、記録媒体503から人物検出識別手段501と、人物検出識別管理部502に読み込まれ、図1を参照して説明した前記した実施の形態における人物検出識別手段6および人物検出識別管理部13による処理と同一の処理を実行する。
【0240】
【発明の効果】
以上説明したように、本発明によれば、次のような効果を奏する。
【0241】
本発明のロボット装置で用いられる人物識別装置は、例えば家庭環境のように、照明条件の変動が激しい環境下においても、極めて高い識別率で人物を識別することができる、という効果を奏する。
【0242】
その理由は以下の通りである。すなわち、本発明においては、画像の濃淡値だけではなく、動きと対面距離情報を用いて検出識別している、ためである。また、本発明においては、顔位置合わせ手段により、精度のよい正面顔を検出している、ためである。さらに、本発明においては、顔識別手段において、線形判別辞書による類似度識別を行なっている、ためである。
【0243】
そして、本発明においては、人(利用者)との対話を通じて、装置又はシステムが自ら学習することで、識別精度を上げる、ように構成したためである。
【0244】
また、本発明のロボット装置によれば、ある場所で入力画像が不良で識別できなくても、その後、装置自ら動作することにより、良好な画像を取得する、ことができる。
【図面の簡単な説明】
【図1】本発明のロボット装置で用いられる人物識別装置の一実施の形態の構成を示すブロック図である。
【図2】本発明のロボット装置で用いられる人物識別装置における頭部検出追跡手段の一実施例の構成を示すブロック図である。
【図3】本発明のロボット装置で用いられる人物識別装置における頭部検出追跡手段の別の実施例の構成を示すブロック図である。
【図4】本発明のロボット装置で用いられる人物識別装置における単眼視頭部矩形座標検出手段の一実施例の構成を示すブロック図である。
【図5】本発明のロボット装置で用いられる人物識別装置における頭部検出処理を説明するための図である。
【図6】本発明のロボット装置で用いられる人物識別装置における左右画像照合処理を説明するための図である。
【図7】本発明のロボット装置で用いられる人物識別装置における頭部追跡処理を説明するための図である。
【図8】本発明のロボット装置で用いられる人物識別装置における正面顔画像を特徴データに変換する際のラスタスキャンの説明図である。
【図9】本発明のロボット装置で用いられる人物識別装置における正面顔位置合わせ手段の一実施例の構成を示すブロック図である。
【図10】本発明のロボット装置で用いられる人物識別装置における正面顔探索手段の一実施例の構成を示すブロック図である。
【図11】本発明のロボット装置で用いられる人物識別装置における正面顔探索手段の他の実施例の構成を示すブロック図である。
【図12】本発明のロボット装置で用いられる人物識別装置における頭部検出処理と顔位置合わせ処理を説明するための図である。
【図13】本発明のロボット装置で用いられる人物識別装置における顔識別手段と識別辞書記憶手段と識別結果補正手段の各実施例の構成を示すブロック図である。
【図14】本発明のロボット装置で用いられる人物識別装置における辞書データ管理部の一実施例の構成を示すブロック図である。
【図15】本発明のロボット装置で用いられる人物識別装置における顔識別手段と識別辞書記憶手段と識別結果補正手段の各実施例の構成を示すブロック図である。
【図16】本発明のロボット装置の一実施例の構成を示す図である。
【図17】本発明のロボット装置の他の実施例の構成を示す図である。
【図18】本発明のロボット装置で用いられる人物識別装置における人物検出処理と識別処理を説明するための流れ図である。
【図19】本発明のロボット装置で用いられる人物識別装置における頭部検出追跡処理を説明するための流れ図である。
【図20】本発明のロボット装置で用いられる人物識別装置における頭部検出処理を説明するための流れ図である。
【図21】本発明のロボット装置で用いられる人物識別装置における正面顔位置合わせ処理を説明するための流れ図である。
【図22】本発明のロボット装置で用いられる人物識別装置における正面顔探索処理を説明するための流れ図である。
【図23】本発明のロボット装置で用いられる人物識別装置における正面顔探索処理を説明するための流れ図である。
【図24】本発明のロボット装置で用いられる人物識別装置における顔識別処理を説明するための流れ図である。
【図25】本発明のロボット装置で用いられる人物識別装置における人物辞書登録処理を説明するための流れ図である。
【図26】本発明のロボット装置における行動制御を説明するための流れ図である。
【図27】本発明のロボット装置における行動制御を説明するための流れ図である。
【図28】本発明のロボット装置における行動制御を説明するための流れ図である。
【図29】本発明のロボット装置で用いられる人物識別装置における線形判別辞書作成手段の一実施例の構成を示すブロック図である。
【図30】本発明のロボット装置で用いられる人物識別装置における固有ベクトル辞書作成手段の一実施例の構成を示すブロック図である。
【図31】本発明のロボット装置で用いられる人物識別処理に用いる線形判別辞書作成方法を説明するための図である。
【図32】本発明のロボット装置で用いられる人物識別処理に用いるステレオ視による対面距離算出方法を説明するための図である。
【図33】本発明のロボット装置で用いられる人物識別処理に用いる固有ベクトル投影距離辞書の説明図である。
【図34】本発明のロボット装置で用いられる人物識別処理に用いる線形判別辞書の説明図である。
【図35】本発明のロボット装置で用いられる人物識別装置の他の実施例の構成を示すブロック図である。
【符号の説明】
1 人物検出識別手段
2 映像取得手段
3 右カメラ
4 左カメラ
5 対面距離センサ
6 頭部検出追跡手段
7 正面顔位置合わせ手段
8 顔特徴量抽出手段
9 顔識別手段
10 識別辞書記憶手段
11 識別結果補正手段
12 辞書データ管理部
13 人物検出識別管理部
14 人物識別装置
21 頭部検出手段
22 頭部追跡手段
23 頭部矩形記憶手段
24 単眼視頭部矩形座標検出手段
25 左右画像照合手段
26 対面距離評価手段
27 頭部検出追跡手段
28 右カメラ
29 左カメラ
30 対面距離センサ
31 対面距離統合手段
32 頭部検出追跡手段
33 頭部検出手段
34 CCDカメラ
41 頭部矩形座標検出手段
42 動き画素検出手段
43 人物数評価手段
44 頭頂座標検出手段
45 頭部下部座標検出手段
46 側頭座標検出手段
47 動き領域幅
48 統合差分画像G
49 統合差分画像G
50 統合差分画像上部領域
51 頭部検出矩形
52 探索結果
53 前フレームの頭部矩形座標
54 サーチ軌跡
55 前フレームの頭部矩形画像
61 正面顔位置合わせ手段
62 頭部矩形切り取り手段
63 正面顔探索手段
64 標準顔辞書デ−タ記憶手段
65 正面顔らしさ判定手段
66 濃度分散判定手段
67 しきい値処理手段
71 正面顔探索手段
72 正面顔候補抽出手段
73 中間縮小画像記憶手段
74 コントラスト補正手段
75 固有ベクトル投影距離算出手段
76 標準顔辞書記憶手段
77 記憶手段
78 投影距離最小判定手段
79 探索範囲終了判定手段
80 標準顔平均データ記憶手段
81 標準顔固有ベクトルデータ記憶手段
82 平均差分手段
83 ベクトル投影値算出手段
84 再構成演算手段
85 投影距離計算手段
86 投影距離最小値記憶手段
87 正面顔濃淡値記憶手段
88 頭部中間サイズ算出手段
89 頭部矩形画像記憶手段
90 画像縮小手段
91 中間サイズ記憶手段
92 多重解像度処理終了判定手段
101 正面顔探索手段
102 積和演算手段
103 類似度最大判定手段
104 標準顔辞書データ記憶部
105 記憶手段
106 類似度最大値記憶手段
107 正面顔濃淡値記憶手段
111 顔識別手段
112 識別辞書記憶手段
113 識別結果補正手段
114 識別結果加重平均算出手段
115 特徴データ記憶手段
116 積和演算手段
117 しきい値処理手段
118 最大類似度人物判定手段
119 登録人物用識別辞書記憶手段
121 辞書データ管理部
122 個人特徴データ管理部
123 識別辞書生成手段
124 セレクタ
125 人物別特徴データ
126 線形判別辞書作成手段
127 固有ベクトル辞書作成手段
131 顔識別手段
132 識別辞書記憶手段
133 他人判別手段
134 他人判別用辞書記憶手段
151 頭部矩形
152 頭部矩形画像
153 縮小頭部矩形画像
154 正面顔探索形状
155 正面顔画像
201 ロボット装置
202 CCDカメラ
203 人物検出識別手段
204 辞書データ管理部
205 人物検出識別管理部
206 全体制御部
207 スピーカ
208 ロボット移動手段
209 モータ
210 車輪
221 ロボット装置
222 タッチセンサ
223 対面距離センサ
224 人物検出識別手段
225 マイク
226 音声認識手段
227 全体制御部
311 線形判別辞書作成手段
312 特徴量X記憶手段
313 分散共分散行列Cxx算出手段
314 逆行列変換手段
315 行列乗算手段
316 定数項算出手段
317 目的変数Y記憶手段
318 目的変数Y生成手段
319 共分散行列Cxy算出手段
320 係数記憶手段
331 固有ベクトル辞書作成手段
332 特徴量記憶手段
333 特徴量平均算出手段
334 分散共分散行列算出手段
335 固有ベクトル算出手段
336 係数記憶手段
341 個人特徴データX
342 目的変数Y
343 特徴データ平均値
344 目的変数平均値
401 右カメラ
402 左カメラ
403 対象物
411 1番目の固有ベクトル
412 2番目の固有ベクトル
413 P番目の固有ベクトル
414 平均値
421 定数項
422 クラス1の識別係数
423 クラス2の識別係数
424 クラスqの識別係数
425 乗算項
501 人物検出識別処理部
502 人物検出識別管理部
503 記録媒体[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a technique for identifying a person in a video, and more particularly to a person identification technique using a front face and a robot apparatus for identifying a person.
[0002]
[Prior art]
Several methods for identifying a person using facial images have been proposed. Recent trends in face detection and identification technologies are described in, for example, Reference (1) (Shigeru Akamatsu, “Face Recognition by Computer-Survey”, IEICE Transactions, Vol. J80-D-II, No. 8, pp.2031-2046, August 1997). In general, a face identification system includes a process for detecting a face from an image, a feature extraction process from a face pattern, and a person identification process for comparing feature quantities with dictionary data.
[0003]
As a detection method of face images, reference (2) (Shin Kosugi, “Finding and locating faces in scenes using multiple pyramids for personal identification”, IEICE Transactions, Vol. J77-D- II, No.4, pp.672-681, April 1994), which performs template matching using shading patterns, and literature (3) (M. Turk, A. Pentland, “Face Recognition”). on Eigenfaces ”, Proceedings of IEEE, CVPR91), a face image eigenvector projection distance method is known.
[0004]
Also, for example, Japanese Patent Laid-Open No. 9-251534 has proposed a method of detecting features such as eyes, nose, and mouth and cutting out a front face shading pattern from the positional relationship.
[0005]
As a typical example of face detection, an eigenvector projection distance method by M. Turk et al. Will be described.
[0006]
Prepare a lot of front face data (hundreds) beforehand. Using these pixel values as feature vectors, eigenvalues and eigenvectors are obtained. P eigenvectors Vn (n = 1,... P) are obtained in descending order of eigenvalues.
[0007]
When the test image t is projected onto the eigenvector Vn, p projection values are obtained. A reconstructed test image t ′ is obtained by reconstructing the test image from these projection values and the eigenvector Vn.
[0008]
If t is close to the face pattern, an image close to the reconstructed test image t ′ is also obtained. Therefore, it is determined whether or not the face is based on the distance scale Dt given by the following equation (1).
[0009]
[0010]
There are two types of face identification features, one that uses geometric features of facial features such as eyes, nose, and mouth, and one that uses global shade pattern matching. Since the positional relationship of the feature changes as the face orientation and facial expression change, the latter method using the global shading pattern is currently the mainstream.
[0011]
Examples of face image identification and collation methods include, for example, the above document (2) (Shin Kosugi, “Finding and locating faces in scenes using multiple pyramids for personal identification”, IEICE Transactions, Vol. J77-D-II, No. 4, pp. 672-681, April 1994) considers a gray pattern as a feature vector, and uses a category with a large inner product between feature vectors as an identification result. Also, in the above document (3) (M. Turk, A. Pentland, “Face Recognition on Using Eigenfaces”, Proceedings of IEEE, CVPR91), the projection value onto the eigenvector of the face image is used as a feature vector, and the Euclidean distance The small category is the identification result.
[0012]
Conventionally, as a robot apparatus having an image recognition function, for example, there is an apparatus described in Japanese Patent Application No. 10-151591. This robot apparatus can extract color information from an image and change the operation according to the color pattern. However, no function means for recognizing a person is provided.
[0013]
[Problems to be solved by the invention]
The above-described conventional system has the following problems.
[0014]
The first problem is that a person cannot be identified in an environment where lighting conditions are not constant, such as a home environment.
[0015]
This is because it is difficult to detect a face in a general environment. For example, the template matching method is difficult to detect unless the face pattern and the dictionary pattern in the image are almost density values, and the illumination direction is slightly shifted or is different from the person in the dictionary. Almost undetectable. On the other hand, although the eigenvector projection distance method has a higher detection performance than the template matching, the detection fails similarly in an image with a different illumination direction or a complicated background.
[0016]
Another reason why the person cannot be identified in an environment where the lighting conditions are not constant is that the conventional feature extraction method and the identification method cannot absorb the variation of the feature amount due to the illumination variation.
[0017]
Accordingly, the present invention has been made in view of the above problems, and an object thereof is to provide a robot apparatus that can identify a person in a general environment such as a home environment.
[0018]
Accordingly, another object of the present invention is to provide a robot apparatus that can stably identify a person in a general environment.
[0019]
[Means for Solving the Problems]
The robot apparatus according to the present invention that achieves the above-described object includes, as a person identification device, a video acquisition unit that acquires an image, a head detection tracking unit that detects a human head from the image, and a detected head. Front face alignment means for acquiring a front face image from a partial image, face feature extraction means for converting the front face image into a feature quantity, face identification means for identifying a person from the feature quantity using an identification dictionary, and identification An identification dictionary storage means for storing a dictionary is provided. Then, in the head detection and tracking means, a monocular head rectangular coordinate detection means for detecting the head from one image, and a facing distance evaluation means for removing erroneous head detection from the facing distance value and the head rectangular coordinate value And measuring the distance between the front object, a general control unit that controls the operation of the robot, a speaker that speaks voice according to instructions from the general control unit, a moving means that moves the robot according to instructions from the general control unit A face-to-face distance sensor, a touch sensor, a microphone, and voice recognition means.
[0020]
In the present invention, when the person identification result is obtained, the overall control unit controls to speak with a different voice for each person.
[0021]
In the present invention, when the overall control unit obtains a face-to-face distance and direction with a front object from the person identification device, means for obtaining a person identification result, and the face-to-face distance is equal to or greater than a threshold value And means for moving so as to approach the forward object, and means for controlling the person identification result to be spoken with a different voice for each person when the facing distance is less than or equal to a threshold value.
[0022]
DETAILED DESCRIPTION OF THE INVENTION
Next, embodiments of the present invention will be described in detail with reference to the drawings.
[0023]
FIG. 1 is a diagram showing a configuration of an embodiment of a person identification device used in a robot apparatus according to the present invention. Referring to FIG. 1, a
[0024]
Cameras used in an embodiment of the present invention collectively include, for example, video devices, digital CCD cameras, and the like, and photographing devices that can output a moving scene as a sequence of still images.
[0025]
The person detection and
[0026]
Upon receiving the operation start command from the person detection /
[0027]
FIG. 18 is a flowchart for explaining the processing of the person detection / identification means 1 according to the embodiment of the present invention. The operation of the person detection / identification means 1 will be described with reference to FIGS.
[0028]
First, the head detection and
[0029]
Next, the number of detected heads is evaluated (step S2). If the detected number of heads is 0, the next frame image is input to detect heads, and step S1 is continued until the detected number becomes 1 or more.
[0030]
When the number of detected heads is 1 or more, the detection result is transmitted to the front face alignment means 7. The front face alignment means 7 performs a face area search process (step S3) and determines whether a front face area has been found (step S4).
[0031]
When a front face is found, a front face image that is a rectangular image at the center of the face is output. The processes in steps S3 and S4 are intended to eliminate erroneous detection of the head, and to extract only the video in which the person is facing the front of the camera and send it to the subsequent process. If the front face cannot be found, the process is repeated from step S1.
[0032]
When a front face is found, the face feature extraction means 8 converts the front face image into feature amount data (step S5).
[0033]
As shown in FIG. 8, one example of the face feature extraction means 8 scans the front face image from left to right line by line, and when one line ends from top to bottom, scans the next line to obtain one-dimensional data. It is generated (called “raster scan”) and used as feature data. In addition, a method in which edge data is extracted by filtering using a first-order differential filter or a second-order differential filter may be used as a feature data by raster scanning.
[0034]
Next, the face identification means 9 performs face identification processing with reference to the dictionary data in the identification dictionary storage means 10 (step S6).
[0035]
Next, the identification
[0036]
At this time, when a plurality of head rectangles are detected in the head detection / tracking means 6 (step S1) and all of them are not processed (No branch in step S9), the front face alignment means 7 again ( Processing is performed from step S3). The person detection /
[0037]
FIG. 2 is a diagram showing the configuration of the head detection / tracking means 27 constituting an embodiment of the head detection / tracking means 6 of FIG. Referring to FIG. 2, the head detection tracking unit 27 includes a
[0038]
FIG. 19 is a flowchart for explaining the processing of the head detection / tracking means 27. With reference to FIGS. 2 and 19, the operation of the head detection and tracking means 27 according to an embodiment of the present invention will be described.
[0039]
The right camera image, the left camera image, and the reading value of the facing distance sensor are input to the
[0040]
When the number of detected heads is 1 or more, the number of detected heads and the head rectangular coordinates are stored in the head rectangular coordinate storage means 23 and then output (step S18).
[0041]
If the number of detected heads is 0, the head tracking means 22 takes out the head rectangle information in the previous frame from the head rectangle storage means 23 and performs head tracking processing (step S19).
[0042]
If head tracking is successful, the number of heads and head rectangular coordinates that have been successfully tracked are output, and if tracking fails, the number of detections is 0 (step S20).
[0043]
Next, the operation of the head detecting means 21 in
[0044]
The head rectangular coordinate detection means 24 shown in FIG. 2 uses a right camera image. Next, the left and right image collating means 25 calculates the facing distance value based on the principle of stereo vision using the obtained head rectangular coordinates and the left and right camera images (step S12 in FIG. 19).
[0045]
With reference to FIG. 6, the operation of the left and right image matching means 25 in FIG. 2 will be described. A head rectangle detected in the right camera image is set as a
[0046]
[0047]
The above equation (2) represents the Euclidean distance between the partial images of the right camera and the left camera. The coordinates on the left camera image when Dtm is the smallest are taken as search results 52. When the
[0048]
With reference to FIG. 32, an example of a method for calculating the distance to the object will be described. FIG. 32 is a top view of a situation where a single target object 403 is captured using the left and right cameras. The right camera 401 and the left camera 402 are installed in parallel with an interval C therebetween. The angle of view of the camera is θ and is the same for both left and right. Let e be the lateral length of the imaging surface of the camera. In this state, the object 403 is shown at the coordinate Xr in the right camera image, and the coordinate Xl is shown in the left camera image. The maximum horizontal size of the image is W pixels. At this time, the facing distance Z from the camera imaging surface to the symmetrical object 403 can be calculated by the following equation (3).
[0049]
Here, since e is a small value usually less than 1 cm, it can be approximated as 0. As described above, the facing distance is calculated from the left and right camera images.
[0050]
Then, after the face-to-face image collating means 25 calculates the face-to-face distance by stereo vision, the face-to-face distance integrating means 31 performs face-to-face distance integration processing based on the output value of the face-to-face distance sensor 30 (step in FIG. 19). S13). Experimentally, distance sensors such as ultrasonic sensors are very accurate when the distance is less than 1 m. On the other hand, the error tends to increase at a distance of 1 m or more.
[0051]
Although the distance value calculated by stereo viewing is effective up to about 3 m depending on the angle of view of the camera, if the distance is too close, the error tends to increase. Therefore, as a method of integrating both distance values, when the output of the facing
[0052]
After integrating the face-to-face distances, the face-to-face distance evaluation means 26 calculates the actual size of the head from the face-to-face distance value and the head rectangular coordinate value in the image (step S14 in FIG. 19).
[0053]
If the calculation result substantially matches the size of the human head, it is determined that the head is really detected. If the calculation result is significantly different from the actual head size, it is determined that it is a false detection (step S15 in FIG. 19). For example, when the horizontal size of the head is within 12 cm plus or minus 2 cm and the vertical size is within 20 cm plus or minus 4 cm, it is regarded as the head, and otherwise it is determined that it is not the head.
[0054]
If it matches the actual size, the number of detections is increased by 1 (step S16 in FIG. 19).
[0055]
When the tentative head rectangular coordinates that have not been evaluated remain (No branch in step S17 in FIG. 19), the process is performed again from step S12. The head detecting means 21 outputs the number of detected heads and the head rectangular coordinates when all the provisional head rectangular coordinates have been evaluated (Yes branch in step S19 in FIG. 19).
[0056]
Next, the head rectangular coordinate detection means 24 shown in FIG. 2 will be described. FIG. 4 is a diagram showing the configuration of the head rectangular coordinate detecting
[0057]
FIG. 20 is a flowchart for explaining the processing of the head rectangular coordinate detection means 41. The operation of the head rectangular coordinate detection means 41 will be described with reference to FIGS. 20, 4, and 5.
[0058]
First, the moving pixel detection means 42 detects a pixel group that moves within the screen. The difference between the input image data and the image data input immediately before is taken to generate a difference image g (step S21).
[0059]
Furthermore, the difference image g of past m frames (m is an integer of 2 or more) is added and averaged to obtain an integrated difference image G (step S22). The integrated difference image G has a pixel value of 0 in a non-motion area, and a larger pixel value in a movement area.
[0060]
Since the integrated difference image G contains a large amount of sesame salt noise, the
[0061]
Next, the number-of-persons evaluation means 43 in FIG. 4 evaluates how many people are on the screen. The operation of the person number evaluation means 43 will be described. FIG. 5 is a diagram for explaining an example of acquisition of the integrated difference image G.
[0062]
First, a method for detecting only one person will be described. If the integrated difference image G48 is obtained, it is first determined whether or not there is a motion region (step S24 in FIG. 20). Here, the motion area represents an area occupied by a moving pixel. If there is no motion area, that is, if the integrated difference image G is all zero, the number of persons is determined to be zero. Otherwise, the number of persons is 1.
[0063]
Next, a method for detecting a plurality of persons will be described. If the integrated difference image G49 is obtained, first, the presence / absence of a motion region is checked (step S24 in FIG. 20). When there is no motion area, the number of persons is zero. If there is a motion region, the integrated difference image G is referred to determine how many people are present (step S25 in FIG. 20). As a determination method, for example, there is a method in which one person is used when the maximum value of the motion area width in the integrated differential image upper region 50 is smaller than a certain threshold value, and two persons are used when the maximum value is larger. When the number of persons is two, it is assumed that the persons are lined up side by side, and the integrated difference area G is divided into a
[0064]
Next, processing for obtaining head rectangular coordinates from the integrated difference image G will be described. A
[0065]
The
[0066]
Next, the Y coordinate of the top is obtained by the top coordinate detection means 44 (step S27 in FIG. 20). As a method of obtaining the vertex coordinates, there is a method in which the minimum value of the Y coordinate of the motion region is used as the vertex.
[0067]
Next, the Y coordinate of the bottom of the head rectangle is obtained by the head lower coordinate detecting means 45 (step S28 in FIG. 20). As a method for obtaining the base coordinates of the head rectangle, a search is performed from the top to the bottom (Y direction), a line whose
[0068]
Next, the left and right x-coordinates of the head rectangle are obtained by the temporal coordinate detection means 46 (step S29 in FIG. 20). As a method of obtaining the left and right x-coordinates, a method of obtaining the coordinates of the left and right ends of the motion region in the line having the largest
[0069]
When the number of persons is two or more, the processing from step S26 to step S29 in FIG. 20 is repeated for each partial region.
[0070]
Next, the operation of the head tracking means 22 in FIG. 2 will be described with reference to FIG. The tracking process is performed on the camera image (right camera image in FIG. 2) used for head rectangular coordinate detection. First, the head rectangular coordinate 53 of the previous frame and the head rectangular image 55 of the previous frame are read from the head rectangular storage means 23.
[0071]
Next, in the current frame, the vicinity region of the head rectangular coordinate 53 of the previous frame is searched by template matching, and the place with the smallest distance value is set as the tracking result.
[0072]
FIG. 3 is a diagram showing the configuration of the head detection / tracking means 32 according to another embodiment of the head detection / tracking means 6 of FIG. Referring to FIG. 3, the head detection and tracking unit 32 includes a head detection unit 33, a head
[0073]
As another example of the head detection and tracking means 6, a head detection means having a configuration in which a face distance is obtained from information of only the left and right cameras and a head rectangle is evaluated without using a face distance sensor. Also good. In the case of this configuration, the
[0074]
FIG. 9 is a diagram showing the configuration of the front face alignment means 61 constituting one embodiment of the front face alignment means 7 of FIG. Referring to FIG. 9, the front
[0075]
The front face appearance determination unit 65 includes a density
[0076]
FIG. 21 is a flowchart for explaining the processing of the front face alignment means 61. The operation of the front face alignment means 61 will be described with reference to FIGS. When the image data, the head rectangular coordinates, and the facing distance are input, the front
[0077]
Next, the front face search means 63 searches the front face area from the head rectangular image, and outputs the inter-pattern distance or similarity between the front face image and the standard face dictionary (step S42).
[0078]
Next, the front face likelihood determination means 65 determines whether or not the front face image is really a front face (step S43). If it is determined that the face is a front face, the front face presence / absence flag is “present” and a front face image is output. If it is determined that the face is not a front face, the front face presence / absence flag is “none” and no front face image is output.
[0079]
The front face appearance determination unit 65 includes a density
[0080]
The density
[0081]
The density dispersion determining means 66 can eliminate a monotonous wall-like pattern.
[0082]
The
[0083]
In the case of the inter-pattern distance value, it is determined that the face is not a front face when it is equal to or greater than the threshold value. In the case of similarity, it is determined that the face is not a front face when it is below the threshold.
[0084]
FIG. 12 is an explanatory view schematically showing the operation of the front face alignment means 61. If the head rectangle 151 is detected, a head rectangle image 152 is generated in step S41 of FIG.
[0085]
Next, in the face center portion search process in step S42 of FIG. 21, the front face image 155 is obtained after the reduced head rectangular image 153 is generated.
[0086]
The front face image is an image of the center part of the face as shown in the front face image 155 of FIG. 12, the horizontal direction is such that both eyes are completely included, and the vertical direction is the entire mouth from the eyebrows. It means an image of an area that includes it.
[0087]
FIG. 10 is a diagram showing the configuration of the front face searching means 71 that constitutes one embodiment of the front face searching means 63. Referring to FIG. 10, this front face search means 71 includes a head rectangular image storage means 89, a head intermediate size calculation means 88, an image reduction means 90, an intermediate size storage means 91, and a front face candidate extraction means. 72, intermediate reduced image storage means 73, contrast correction means 74, eigenvector projection distance calculation means 75, standard face dictionary storage means 76, storage means 77, projection distance minimum determination means 78, and search range end determination. Means 79 and multi-resolution processing end judging means 92 are provided.
[0088]
The eigenvector projection distance calculation means 75 includes an average difference means 82, a vector projection value calculation means 83, a reconstruction calculation means 84, and a projection distance calculation means 85.
[0089]
The standard face
[0090]
The storage unit 77 includes a projection distance minimum value storage unit 86 and a front face gray
[0091]
FIG. 22 is a flowchart for explaining the process of the front face searching means 71. The operation of the front face searching means 71 will be described with reference to FIGS. The head rectangular image data is held in the head rectangular image storage unit 89. First, the head intermediate size calculating means 88 calculates the intermediate reduced size of the head rectangular image with reference to the face distance value and the size of the standard face dictionary data (step S101).
[0092]
A processing example of the head intermediate size calculating unit 88 will be described. The intermediate reduced size is shown as the vertical and horizontal size of the reduced head rectangular image 153 in FIG. The horizontal size of the head rectangular image 152 is Hw, and the vertical size is Hh. The horizontal size of the intermediate reduced size is Mw, and the vertical size is Mh. The front face image has a horizontal size Fw and a vertical size Fh. Fw and Fh are the same as the vertical and horizontal sizes of the front face search shape 154, and are uniquely determined for the standard face dictionary. Hh, Hw, Mh, Mw, Fh, and Fw are all pixel sizes in units of pixels.
[0093]
The standard face dictionary is a pattern recognition dictionary generated by using the gray value of the front face area shown in the front face image 155 of FIG. 12 as a feature value. The front face region means a region that includes both eyes completely in the horizontal direction and a region that includes the entire mouth from the eyebrows. The front face area is not necessarily rectangular, and can be realized by an arbitrary continuous area including both eyes, nose and mouth, such as an ellipse. However, if the shape is rectangular, the processing can be simplified and speeded up, which is effective as a mounting form. Therefore, in the following description, the front face area is assumed to be rectangular.
[0094]
If the actual vertical and horizontal sizes of the front face area are RFh and RFw, a male adult can be represented by about RFw = 10 cm and RFh = 15 cm. On the other hand, since the facing distance Z is known, the actual vertical and horizontal sizes RHh and RHw of the head rectangular image can be calculated by the following equation (4). The variable of the following equation (4) corresponds to FIG.
[0095]
[0096]
Since the width e of the image pickup surface is small, there is no problem even if the calculation is normally ignored.
[0097]
In order to search for a head rectangular image using the standard face dictionary, it is necessary to convert the head rectangular image to the same resolution as the standard face dictionary. The converted sizes are intermediate reduced sizes Mw and Mh. Mh and Mw can be obtained from the relational expression of the following expression (5).
[0098]
[0099]
That is, the head intermediate size calculating means 88 can calculate one set of intermediate reduced sizes Mw and Mh by designating one set of RFw and RFh. However, the size of the front face of humans varies from adults to children, women and men. Therefore, it is possible to prepare a plurality of sets of RFw and RFh and calculate an intermediate reduced size corresponding to each set. By calculating a plurality in advance, the subsequent front face search process can be processed with a plurality of intermediate reduction sizes. Further, it can be interpreted that the search processing with a plurality of intermediate reduction sizes is the same as the act of searching for the head rectangle with a plurality of resolutions.
[0100]
When the intermediate size is calculated by the head intermediate size calculation unit 88, the intermediate size information is stored in the intermediate
[0101]
Next, the minimum inter-pattern distance value Dmin is initialized to a value sufficiently larger than the normally obtained inter-pattern distance value (step S102 in FIG. 22).
[0102]
One piece of information in the intermediate reduction
[0103]
Next, the front face search positions SX and SY are initialized to 0 (step S104 in FIG. 22).
[0104]
Next, the front face candidate extracting means 72 extracts front face candidate images at the search positions SX and SY (step S105 in FIG. 22).
[0105]
Next, in order to correct the tone of the front face candidate image, the contrast is corrected by the contrast correcting means 74 (step S106 in FIG. 22).
[0106]
An example of a specific method for contrast correction will be described. Assuming that the front face candidate image takes a value from 0 to vmax, the average of the pixel values is μ, and the standard deviation is σ, the conversion formula from the original image V to the contrast corrected image V ′ is the following formula (6 ).
[0107]
[0108]
Referring to FIGS. 10 and 22 again, next, the eigenvector projection distance calculation means 75 obtains the eigenvector projection distance D between the front face candidate image and the standard face pattern (step S107).
[0109]
Next, the projection distance minimum judging means 78 compares D and Dmin. At this time, if D is a value smaller than Dmin, D is substituted for Dmin, the value is updated, and stored in the projection distance minimum value storage means 86. At the same time, the front face candidate image is stored in the front face gray value storage means 87 (step S108).
[0110]
Next, the search range end determination means 79 increments the search positions SX and SY (step S109), and determines whether or not all the head rectangles have been searched (step S110). If the search has not been completed yet, the process is repeated from
[0111]
When the search for the entire search range of the head rectangle has been completed, the multi-resolution processing
[0112]
Next, the operation of the eigenvector projection distance calculation means 75 in FIG. 10 will be described.
[0113]
The standard face dictionary storage means 76 stores standard face average data and standard face eigenvector data.
[0114]
FIG. 33 shows an example of an eigenvector projection distance calculation dictionary when the number of feature quantities is p. The eigenvector projection distance calculation dictionary includes p-dimensional eigenvector data E from the 1st to the p-th and an average value Ave of p feature amounts. When there are p feature quantities, eigenvectors exist up to the p-th, but 1 to m-th are used when calculating the projection distance.
[0115]
The pixel values of the front face candidate image are raster scanned as shown in FIG. 8 and converted into one-dimensional feature data. At this time, the product Fw × Fh of the vertical and horizontal sizes of the front face image must be the same as the feature quantity of the dictionary. This is expressed as a vector X: X1, X2,. . . Let Xp.
[0116]
First, the average difference means 82 subtracts the average vector Ave from the vector X. This is a vector Y.
[0117]
[0118]
Next, in the vector projection value calculation means 83, the vector Y is projected onto m eigenvectors, and the projection values R1. . Rm is obtained. The projection value calculation method is shown in the following equation (8).
[0119]
[0120]
Next, in the reconstruction calculation means 84 (see FIG. 10), the projection values R1. . . The original feature quantity Y is reconstructed using Rm and m eigenvectors, and the reconstructed vector is Y ′. The reconstruction calculation is shown in the following equation (9).
[0121]
[0122]
Next, the projection distance calculation means 85 calculates the Euclidean distance value between Y and Y ′ according to the following equation (10). Thereby, the projection distance D to the eigenvector E is calculated.
[0123]
[0124]
FIG. 11 is a diagram showing the configuration of the front face searching means 101 as another embodiment of the front face searching means 63 of FIG. Referring to FIG. 11, this front face search means 101 includes a head rectangular image storage means 89, a head intermediate size calculation means 88, an image reduction means 90, an intermediate size storage means 91, and a front face candidate extraction means. 72, intermediate reduced image storage means 73, contrast correction means 74, product-sum operation means 102, standard face dictionary data storage means 104, storage means 105, maximum similarity determination means 103, search range end determination Means 79 and multi-resolution processing end judging means 92 are provided.
[0125]
The
[0126]
FIG. 23 is a flowchart for explaining the processing of the front face search means 101. The operation of the front face searching unit 101 will be described with reference to FIGS. The head rectangular image data is held in the head rectangular image storage unit 89. First, the head intermediate size calculation means 88 calculates the intermediate reduced size of the head rectangular image with reference to the face-to-face distance value and the standard face dictionary data size, and stores it in the intermediate size storage means 91 (step S121).
[0127]
The calculation method of the intermediate reduction size is the same as that of the front face search means 71. Next, the maximum similarity Smax is initialized to 0 (step S122).
[0128]
One piece of information in the intermediate
[0129]
Next, the front face search positions SX and SY are initialized to 0 (step S124).
[0130]
Next, the front face candidate extracting means 72 extracts front face candidate images at the search positions SX and SY (step S125).
[0131]
Next, in order to correct the tone of the front face candidate image, the contrast is corrected by the contrast correcting means 74 (step S126).
[0132]
Next, the product-
[0133]
Next, the similarity maximum value determination means 103 compares S and Smax. At this time, if S is a value larger than Smax, S is substituted into Smax, the value is updated, and stored in the similarity maximum
[0134]
Next, the search range end determination means 79 increments the search positions SX and SY (step S129), and determines whether or not all the head rectangles have been searched (step S130). If the search has not been completed yet, the process is repeated from step 125 again.
[0135]
When the search for the entire search range of the head rectangle has been completed, the multi-resolution processing
[0136]
When the search is completed for all intermediate reduction sizes, the front face search means 101 ends.
[0137]
Next, the operation of the product-
[0138]
The product-
[0139]
The pixel values of the front face candidate image are raster scanned as shown in FIG. 8 and converted into one-dimensional feature data. At this time, the product Fw × Fh of the vertical and horizontal sizes of the front face image must be the same as the feature quantity of the dictionary. This is expressed as a vector X: X1, X2,. . . Let Xp.
[0140]
Also, as standard face dictionary data, a class with q = 1 represents a front face, and a class with q = 2 represents the other. The similarity with the front face can be calculated by the following equation (11) using only the q = 1 row of FIG. 34, that is, the
[0141]
[0142]
The product-
[0143]
13 includes a face identification unit 111 that is an example of the
[0144]
FIG. 24 is a flowchart for explaining the processing of the face identifying unit 111 and the identification result correcting unit 113. With reference to FIGS. 13 and 24, operations of the face identifying unit 111 and the identification result correcting unit 113 will be described.
[0145]
Feature data is input and stored in the feature data storage means 115 (step S51).
[0146]
Next, referring to the data in the registered person identification dictionary storage means 119, the product-sum operation means 116 calculates the similarity to the registered person for each person (step S54).
[0147]
The method of calculating the similarity is basically the same as the operation of the product-
[0148]
When data for q people is registered as a dictionary, the registered person identification dictionary storage means 119 holds the same number of data as the linear discrimination dictionary shown in FIG. Then, the product-sum operation means 116 obtains q similarity degrees Si: (i = 1,... Q) as shown in the following equation (12).
[0149]
[0150]
A method of identifying a pattern based on the magnitude of similarity obtained by the product-sum operation processing using the linear discrimination dictionary shown in FIG. 34 is referred to as “similarity discrimination using the linear discrimination dictionary”.
[0151]
Referring to FIGS. 13 and 24 again, next, the maximum similarity
[0152]
Next, the threshold processing means 117 compares the maximum similarity with a predetermined threshold (step S56).
[0153]
When the maximum similarity is higher than the threshold value, the face identification unit 111 determines that the person has been identified, and outputs the ID number and the maximum similarity. When the maximum similarity is lower than the threshold value, there is a high possibility that the person is not a registered person (person), so information “other person” is output.
[0154]
After receiving the identification result, the identification result correcting unit 113 integrates the identification results in the past N frames by the identification result weighted average calculating unit 114 (step S57). As an example of the operation of the identification result weighted average calculating means 114, there is a method of performing the weighted average of the identification person ID and similarity in the past N frames or the other person determination result as follows.
[0155]
Step A1: If the number of frames at a certain ratio in the past N frames is “other”, it is determined as “other”. If it is determined that it is not another person, the process proceeds to step A2.
[0156]
Step A2: It is assumed that there is a Ni frame in the past N frames that is determined as a person i (i = 1... Q). The similarity weighted average value of each person is calculated by the following equation (13). Si represents the similarity of person i, and SSi represents the similarity weighted average value of person i. The person ID with the largest SSi is output as the identification result.
[0157]
[0158]
The identification result correcting unit 113 outputs the identification result integrated as described above.
[0159]
FIG. 15 is a diagram showing a configuration of a
[0160]
The identification dictionary storage unit 132 includes a different person determination
[0161]
FIG. 24 is a flowchart for explaining the processing of the
[0162]
Next, the inter-pattern distance Dh with the registered person group is obtained by the eigenvector / other person discriminating means 133 while referring to the data in the other person discrimination dictionary storage means 134 (step S52), and the inter-pattern distance Dh is the threshold. If it is larger than the value, it is determined that the person is another person (step S53). The inter-pattern distance Dh is calculated as an eigenvector projection distance. That is, the eigenvector dictionary created based on the feature data of all registered persons is stored in the other person discrimination dictionary storage means.
[0163]
An example of the eigenvector dictionary is shown in FIG. 33, and the eigenvector projection distance calculation method is described in the explanation of the operation of the eigenvector projection distance calculation means 75.
[0164]
If the input feature data is determined to be another person by the eigenvector / other person determination means 133, the face identification means 131 immediately outputs “other person” without going through the product-sum operation means 116.
[0165]
If the eigenvector other person determination means 133 does not determine “others”, the data in the registered person identification dictionary storage means 119 is referred to, and the product sum calculation means 116 determines the similarity to the registered person. Are calculated for each person (step S54). If q persons are registered, q similarity degrees Si: (i = 1,... q) are calculated.
[0166]
Next, the maximum similarity
[0167]
When the maximum similarity is higher than the threshold value, the
[0168]
FIG. 14 is a diagram illustrating a configuration of the dictionary data management unit 121 which is an embodiment of the dictionary
[0169]
The identification dictionary generation unit 123 includes a linear discrimination dictionary creation unit 126 and an eigenvector dictionary creation unit 127. In the personal feature data storage unit 122, there are personal feature data regions 125 for the number of registered persons.
[0170]
When the feature data and the person ID number are input, the dictionary data management unit 121 assigns the input feature data to an area corresponding to the person ID number in the personal feature data storage unit 122 by the
[0171]
When the dictionary data management unit 121 receives the identification dictionary creation command, the identification dictionary generation unit 123 uses the data of the personal feature data storage unit 122 to create a registered person identification identification dictionary and an eigenvector dictionary, which are linear discrimination dictionaries. A certain person discrimination dictionary is generated. The registered person identifying identification dictionary is created by the linear discrimination dictionary creating means 126. The other person discrimination dictionary is created by the eigenvector dictionary creating means 127.
[0172]
When the
[0173]
FIG. 25 is a flowchart for explaining the registration process in the dictionary
[0174]
The person detection /
[0175]
The dictionary data management unit 121 secures a personal feature data area 125 corresponding to the specified ID in the personal feature data storage unit 122 (step S62).
[0176]
The person detection /
[0177]
The dictionary data management unit 121 stores the acquired data in the feature data area 125 for each person corresponding to the new ID (step S63).
[0178]
When the acquisition for the designated number is completed, the person detection /
[0179]
Upon receiving the creation instruction, the dictionary data management unit 121 creates a registered person identification dictionary by the linear discrimination dictionary creation unit 126 of the identification dictionary creation unit 123 (step S65).
[0180]
Next, another person discrimination dictionary is created by the eigenvector dictionary creating means 127 (step S66).
[0181]
Then, the created dictionary is output and stored in the identification dictionary storage means 10 of the person detection / identification unit (step S67). With the above processing, the new person registration processing is completed.
[0182]
FIG. 29 is a diagram showing the configuration of the linear discrimination dictionary creation means 311 that constitutes an embodiment of the linear discrimination dictionary creation means 126 of FIG. Referring to FIG. 29, the linear discriminant dictionary creation means 311 includes a feature amount X storage means 312, a variance covariance matrix Cxx calculation means 313, an inverse matrix conversion means 314, a matrix multiplication means 315, and an objective variable Y storage means. 317, objective variable Y generation means 318, covariance matrix Cxy calculation means 319, coefficient storage means 320, and constant term calculation means 316.
[0183]
A method for creating a linear discrimination dictionary will be described with reference to FIGS. 31 and 34. FIG. 31 shows n individual feature data X341 for n persons, from
[0184]
The objective variable Y342 is a vector that is created for each feature data and has elements for the number of persons to be identified. That is, in FIG. 31, since the person ID takes a value from 1 to q, the objective variable Y exists from Y1 to Yq. The value of the objective variable Y342 is a binary value of 0 or 1, the vector element of the person to which the feature data belongs is 1, and the others are 0. That is, in the case of the feature data of the
[0185]
FIG. 34 is a diagram illustrating an example of the format of the linear discrimination dictionary. The linear discrimination dictionary is composed of two types of coefficients, a constant term 421 and a multiplication term 425. If the matrix consisting of multiplication terms is Aij (i = 1,... P, j = 1,... Q) and the vector consisting of constant terms is A0j (j = 1,... Q), then the matrix. Aij is obtained from the following equation (14).
[0186]
[0187]
In the above equation (14), Cxx is this variance-covariance matrix using all data of the personal feature data X341. This variance covariance matrix Cxx is calculated by the following equation (15).
[0188]
Elements of the personal feature data X are represented by xij: (i = 1... N, j = 1,... P). N is the total number of data and p is the number of features. In the example shown in FIG. 31, since there are n pieces of data per person, N = nq. x ̄ represents the average value of x.
[0189]
[0190]
Cxy is a covariance matrix of the individual feature data X and the objective variable Y. The covariance matrix Cxy is calculated according to the following equation (16). x ̄ and y ̄ represent average values of x and y.
[0191]
[0192]
The constant term A0j is calculated according to the following equation (17).
[0193]
[0194]
First, Cxx is calculated and its inverse matrix is obtained. Next, Cxy is obtained. Finally, these matrixes are multiplied to obtain a multiplication term matrix Aij, and finally a constant term A0j is obtained.
[0195]
FIG. 29 is a diagram for explaining the processing of the linear discrimination dictionary creation means 311. With reference to FIG. 29, the operation of the linear discrimination dictionary creation means 311 will be described. The input personal feature data group is stored in the feature amount
[0196]
The objective variable Y is generated by the objective variable Y generation means 318 using the inputted personal feature data group and person ID. The generated objective variable Y is stored in the objective variable Y storage means 317.
[0197]
Next, the variance-covariance matrix Cxx calculation means 313 calculates the variance-covariance matrix Cxx.
[0198]
Next, an inverse
[0199]
Next, the covariance matrix Cxy calculation means 319 calculates the covariance matrix Cxy.
[0200]
Next, the
[0201]
Next, the constant
[0202]
Finally, the data of the coefficient storage means 320 is output and the process ends.
[0203]
In FIG. 31, binary data of 0 and 1 is shown. However, in the linear discriminating dictionary creation means 311, other binary data such as 0 and 100 can be used.
[0204]
FIG. 30 is a diagram showing an eigenvector dictionary creating unit 331 that constitutes an embodiment of the eigenvector dictionary creating unit 127 of FIG. The eigenvector dictionary creation unit 331 includes a feature
[0205]
A method for creating an eigenvector dictionary will be described with reference to FIGS. 31 and 33. FIG. Elements of the personal feature data X are represented by xij: (i = 1... N, j = 1,... P).
[0206]
First, an average value for each feature amount of X is obtained. Next, the variance covariance matrix Cxx of X is calculated using the above equation (15). The eigenvector of the variance-covariance matrix Cxx is obtained. Methods for obtaining eigenvectors are widely known by those skilled in the art and are not directly related to the present invention, and therefore, details thereof are omitted.
[0207]
Through the above operation, an eigenvector dictionary having a format as shown in FIG. 33 is obtained. Eigenvectors are obtained by the number of feature quantities (p). In FIG. 33, one row represents one eigenvector.
[0208]
FIG. 30 is a diagram for explaining the configuration and processing of the eigenvector dictionary creating unit 331. The operation of the eigenvector dictionary creation unit 331 will be described with reference to FIG.
[0209]
When personal feature data is input, it is stored in the feature amount storage means 332.
[0210]
Next, in the feature quantity average calculation means 333, an average value of the feature quantities is obtained and stored in the coefficient storage means 336. Next, the variance / covariance matrix calculation means 334 calculates the variance / covariance matrix Cxx.
[0211]
Next, the eigenvector calculation means 335 calculates the eigenvector of the variance-covariance matrix Cxx and stores it in the coefficient storage means 336. Finally, the data of the coefficient storage means 336 is output and the process ends.
[0212]
FIG. 16 is a diagram showing a configuration of an embodiment of a robot apparatus according to the present invention. Referring to FIG. 16, the
[0213]
The person detection / identification means 203 performs person detection and identification based on the stereo video from the
[0214]
FIG. 26 is a diagram for explaining the process of the embodiment of the robot apparatus according to the present invention. With reference to FIG.16 and FIG.26, operation | movement of the
[0215]
The person detection /
[0216]
The
[0217]
The approximate direction in which a person exists can be inferred from the head rectangular coordinates in the image. Steps S71 to S73 are repeated, and when the facing distance becomes closer than the threshold value, the
[0218]
Next, a voice for each person is uttered from the
[0219]
FIG. 17 is a diagram showing the configuration of an embodiment of the robot apparatus of the present invention. Referring to FIG. 17, the
[0220]
The person detection / identification means 224 performs person detection and identification based on information from the stereo image from the
[0221]
FIG. 27 is a flowchart for explaining processing of the robot apparatus according to the embodiment of the present invention. An operation example of the
[0222]
The
[0223]
The
[0224]
Next, a specific operation is performed for each identified person (step S82). A specific action refers to the entire action of speaking a person's name or moving a wheel in a specific direction by a person.
[0225]
Next, it waits for the interaction of the dialogue person to be sensed (step S83). When the interaction is obtained, it is determined whether the response is positive or negative (step S84). The positive reaction means “Yes”, for example, when “Yes” is recognized by voice recognition.
[0226]
The negative reaction means “No”, for example, when “No” is recognized by voice recognition.
[0227]
Also, for example, by pre-determining the rule “Yes” when the touch sensor is pressed once in advance and “No” when it is pressed twice in advance, the response of the conversation person is acquired using the touch sensor. Can do.
[0228]
If step S84 is negative, the operation is repeated once again from step S81. In the case of a positive reaction, the facial feature data used for identification is input to the dictionary data management unit 204 (step S85).
[0229]
Then, an identification dictionary is created and updated (step S86).
[0230]
If there is an end instruction, the process ends. If not, the operation is repeated from step S81 (step S87).
[0231]
FIG. 28 is a flowchart for explaining the processing of another embodiment of the robot apparatus of the present invention. An example of the operation of the
[0232]
The
[0233]
Next, a specific operation is performed for each identified person (step S92). A specific action refers to the entire action of speaking a person's name or moving a wheel in a specific direction by a person.
[0234]
Next, it waits for the command of the interactor to be sensed (step S93). When a dialogue event is obtained, it is next determined whether or not the command event is a registration command (step S94). The registration command event includes, for example, an event that “Toroku” is recognized by voice recognition. In addition, a rule that a registration event is determined by tapping the touch sensor once in advance is determined in advance by the overall control unit, so that a registration command event can be uttered using the touch sensor.
[0235]
When a registration command is received, registration processing is performed, and a new person is registered (step S95). An example of the registration processing step S95 is shown in FIG. 25 and has already been described.
[0236]
When the registration process ends, the process starts again from step S91. If the registration command event does not come, an end determination is made (step S96).
[0237]
If there is an end instruction, the process ends. If there is no end instruction, the process starts again from step S91.
[0238]
FIG. 35 is a diagram showing a configuration of an embodiment of a person detection and identification system according to the related invention of the present invention. Referring to FIG. 35, the person detection and identification system according to the related invention of the present invention includes a
[0239]
The person detection / identification processing program is read from the recording medium 503 into the person detection /
[0240]
【The invention's effect】
As described above, according to the present invention, the following effects can be obtained.
[0241]
The person identification device used in the robot apparatus of the present invention has an effect that a person can be identified with an extremely high identification rate even in an environment where the lighting conditions fluctuate significantly, such as a home environment.
[0242]
The reason is as follows. That is, in the present invention, detection and identification are performed using not only the gray value of the image but also the motion and the facing distance information. Further, in the present invention, the front face with high accuracy is detected by the face alignment means. Furthermore, in the present invention, the face identification means performs similarity identification using a linear discrimination dictionary.
[0243]
And in this invention, it is because it comprised so that an identification precision could be raised by an apparatus or a system learning by itself through the dialogue with a person (user).
[0244]
Further, according to the robot apparatus of the present invention, even if the input image is not good and cannot be identified at a certain place, a good image can be obtained by operating the apparatus itself thereafter.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of an embodiment of a person identification device used in a robot apparatus of the present invention.
FIG. 2 is a block diagram showing a configuration of an embodiment of a head detection tracking means in the person identification device used in the robot apparatus of the present invention.
FIG. 3 is a block diagram showing a configuration of another embodiment of the head detection tracking means in the person identification device used in the robot apparatus of the present invention.
FIG. 4 is a block diagram showing a configuration of an embodiment of a monocular head rectangular coordinate detection means in the person identification device used in the robot apparatus of the present invention.
FIG. 5 is a diagram for explaining head detection processing in the person identification device used in the robot apparatus of the present invention.
FIG. 6 is a diagram for explaining left and right image collation processing in the person identification device used in the robot apparatus of the present invention.
FIG. 7 is a diagram for explaining head tracking processing in the person identification device used in the robot apparatus of the present invention.
FIG. 8 is an explanatory diagram of a raster scan when converting a front face image into feature data in the person identification device used in the robot apparatus of the present invention.
FIG. 9 is a block diagram showing a configuration of an embodiment of a front face alignment means in the person identification device used in the robot apparatus of the present invention.
FIG. 10 is a block diagram showing a configuration of an embodiment of a front face search means in the person identification device used in the robot apparatus of the present invention.
FIG. 11 is a block diagram showing a configuration of another embodiment of the front face search means in the person identification device used in the robot apparatus of the present invention.
FIG. 12 is a diagram for explaining head detection processing and face alignment processing in the person identification device used in the robot apparatus of the present invention.
FIG. 13 is a block diagram showing the configuration of each embodiment of face identification means, identification dictionary storage means, and identification result correction means in the person identification device used in the robot apparatus of the present invention.
FIG. 14 is a block diagram showing a configuration of an example of a dictionary data management unit in the person identification device used in the robot apparatus of the present invention.
FIG. 15 is a block diagram showing the configuration of each embodiment of face identification means, identification dictionary storage means, and identification result correction means in the person identification device used in the robot apparatus of the present invention.
FIG. 16 is a diagram showing a configuration of an embodiment of a robot apparatus according to the present invention.
FIG. 17 is a diagram showing a configuration of another embodiment of the robot apparatus of the present invention.
FIG. 18 is a flowchart for explaining person detection processing and identification processing in the person identification device used in the robot apparatus of the present invention.
FIG. 19 is a flowchart for explaining head detection tracking processing in the person identification device used in the robot apparatus of the present invention.
FIG. 20 is a flowchart for explaining head detection processing in the person identification device used in the robot apparatus of the present invention.
FIG. 21 is a flowchart for explaining front face alignment processing in the person identification device used in the robot apparatus of the present invention.
FIG. 22 is a flowchart for explaining a front face search process in the person identification device used in the robot apparatus of the present invention.
FIG. 23 is a flowchart for explaining a front face search process in the person identification device used in the robot apparatus of the present invention.
FIG. 24 is a flowchart for explaining face identification processing in the person identification device used in the robot apparatus of the present invention.
FIG. 25 is a flowchart for explaining a person dictionary registration process in the person identification device used in the robot apparatus of the present invention.
FIG. 26 is a flowchart for explaining behavior control in the robot apparatus of the present invention.
FIG. 27 is a flowchart for explaining behavior control in the robot apparatus of the present invention.
FIG. 28 is a flowchart for explaining behavior control in the robot apparatus of the present invention.
FIG. 29 is a block diagram showing a configuration of an embodiment of a linear discrimination dictionary creating means in the person identification device used in the robot apparatus of the present invention.
FIG. 30 is a block diagram showing a configuration of an example of eigenvector dictionary creating means in the person identification apparatus used in the robot apparatus of the present invention.
FIG. 31 is a diagram for explaining a linear discriminant dictionary creation method used for person identification processing used in the robot apparatus of the present invention.
FIG. 32 is a diagram for explaining a method for calculating a face-to-face distance by stereo vision used in the person identification process used in the robot apparatus of the present invention.
FIG. 33 is an explanatory diagram of an eigenvector projection distance dictionary used for person identification processing used in the robot apparatus of the present invention.
FIG. 34 is an explanatory diagram of a linear discrimination dictionary used for person identification processing used in the robot apparatus of the present invention.
FIG. 35 is a block diagram showing the configuration of another embodiment of the person identification device used in the robot apparatus of the present invention.
[Explanation of symbols]
1 Person detection and identification means
2 Video acquisition means
3 Right camera
4 Left camera
5 Face-to-face distance sensor
6 Head detection and tracking means
7 Front face alignment means
8 facial feature extraction means
9 Face identification means
10. Identification dictionary storage means
11 Identification result correction means
12 Dictionary Data Management Department
13 Person Detection Identification Management Unit
14 Person identification device
21 Head detection means
22 Head tracking means
23 Head rectangle storage means
24 Monocular head rectangular coordinate detection means
25 Left and right image matching means
26 Face-to-face distance evaluation means
27 Head detection tracking means
28 Right camera
29 Left camera
30 Face-to-face distance sensor
31 Face-to-face distance integration means
32 Head detection and tracking means
33 Head detection means
34 CCD camera
41 Head rectangular coordinate detection means
42 Moving pixel detection means
43 Number of persons evaluation means
44 Head coordinate detection means
45 Head lower coordinate detection means
46 Temporal coordinate detection means
47 Movement area width
48 Integrated difference image G
49 Integrated difference image G
50 Integrated differential image upper area
51 Head detection rectangle
52 Search results
53 Front frame head rectangle coordinates
54 Search Trajectory
55 Head rectangular image of previous frame
61 Front face alignment means
62 Head rectangular cutting means
63 Front face search means
64 Standard face dictionary data storage means
65 Front face appearance determination means
66 Density dispersion determination means
67 Threshold processing means
71 Front face search means
72 Front face candidate extraction means
73 Intermediate reduced image storage means
74 Contrast correction means
75 Eigenvector Projection Distance Calculation Means
76 Standard face dictionary storage means
77 Memory means
78 Projection distance minimum judging means
79 Search range end determination means
80 Standard face average data storage means
81 Standard face eigenvector data storage means
82 Mean difference means
83 Vector projection value calculation means
84 Reconstruction calculation means
85 Projection distance calculation means
86 Projection distance minimum value storage means
87 Front face gray value storage means
88 Head intermediate size calculation means
89 Head rectangular image storage means
90 Image reduction means
91 Intermediate size storage means
92 Multi-resolution processing end judging means
101 Front face search means
102 Product-sum operation means
103 means for determining maximum similarity
104 Standard face dictionary data storage
105 Storage means
106 Similarity maximum value storage means
107 Front face gray value storage means
111 Face identification means
112 Identification dictionary storage means
113 Identification result correction means
114 Identification result weighted average calculation means
115 Feature data storage means
116 Product-sum operation means
117 Threshold processing means
118 Maximum similarity person determination means
119 Registered person identification dictionary storage means
121 Dictionary Data Management Department
122 Personal Feature Data Management Department
123 Identification dictionary generating means
124 selector
125 Characteristic data by person
126 Linear discriminant dictionary creation means
127 Eigenvector Dictionary Creation Means
131 Face identification means
132 Identification dictionary storage means
133 Other person discrimination means
134 Other person discrimination dictionary storage means
151 Head rectangle
152 Head rectangular image
153 Reduced head rectangular image
154 Front face search shape
155 Front face image
201 Robot device
202 CCD camera
203 Person detection identification means
204 Dictionary Data Management Department
205 Person detection identification management unit
206 Overall control unit
207 Speaker
208 Robot moving means
209 Motor
210 wheels
221 Robot device
222 Touch sensor
223 Face-to-face distance sensor
224 Person detection identification means
225 microphone
226 Voice recognition means
227 Overall control unit
311 Linear discriminant dictionary creation means
312 Feature amount X storage means
313 Covariance matrix Cxx calculation means
314 Inverse matrix conversion means
315 Matrix multiplication means
316 Constant term calculation means
317 Objective variable Y storage means
318 Objective variable Y generation means
319 Covariance matrix Cxy calculation means
320 Coefficient storage means
331 Eigenvector dictionary creation means
332 feature quantity storage means
333 feature amount average calculation means
334 Covariance matrix calculation means
335 Eigenvector calculation means
336 Coefficient storage means
341 Personal feature data X
342 Objective variable Y
343 Average value of feature data
344 Target variable mean
401 Right camera
402 Left camera
403 Object
411 1st eigenvector
412 Second eigenvector
413 Pth eigenvector
414 average
421 constant term
422
423
424 Class q identification coefficient
425 multiplication term
501 Person detection identification processing unit
502 Person detection identification management unit
503 recording medium
Claims (8)
前記正面顔画像から識別辞書を用いて人物を識別する顔識別手段と、
前記顔識別手段から出力される識別結果を過去Nフレーム分(Nは2以上の整数)の情報を用いて補正する識別結果補正手段と、を含む人物識別装置を備え、
前記識別結果補正手段は、前記顔識別手段から出力される識別結果を過去Nフレーム分(Nは2以上の整数)加重平均する、ことを特徴とするロボット装置。Front face alignment means for obtaining a front face image from the obtained image information;
Face identifying means for identifying a person using an identification dictionary from the front face image;
An identification result correcting unit that corrects an identification result output from the face identifying unit using information of past N frames (N is an integer of 2 or more) ;
The robot apparatus according to claim 1, wherein the identification result correcting unit performs a weighted average of the identification results output from the face identifying unit for the past N frames (N is an integer of 2 or more) .
前記検出された頭部の部分画像中から正面顔画像を取得する正面顔位置合わせ手段と、
正面顔画像を特徴量に変換する顔特徴抽出手段と、
識別辞書を用いて特徴量から人物を識別する顔識別手段と、
識別辞書を保存する識別辞書記憶手段と、
前記顔識別手段から出力される識別結果を過去Nフレーム分(Nは2以上の整数)の情報を用いて補正する識別結果補正手段と、を含む人物識別装置を備え、
前記識別結果補正手段は、前記顔識別手段から出力される識別結果を過去Nフレーム分(Nは2以上の整数)加重平均する、ことを特徴とするロボット装置。Head detection and tracking means for detecting a human head from the acquired image information;
A front face alignment means for obtaining a front face image from the detected partial image of the head;
Facial feature extraction means for converting a front face image into a feature quantity;
Face identification means for identifying a person from a feature quantity using an identification dictionary;
An identification dictionary storage means for storing the identification dictionary;
An identification result correcting unit that corrects an identification result output from the face identifying unit using information of past N frames (N is an integer of 2 or more) ;
The robot apparatus according to claim 1, wherein the identification result correcting unit performs a weighted average of the identification results output from the face identifying unit for the past N frames (N is an integer of 2 or more) .
ロボットの動作を制御する全体制御部と、
前記全体制御部の指示でロボットを移動する移動手段と、
を備えたことを特徴とするロボット装置。The robot apparatus according to claim 1 or 2 ,
An overall control unit for controlling the operation of the robot;
Moving means for moving the robot in accordance with instructions from the overall control unit;
A robot apparatus comprising:
前記顔識別手段が、
線形判別辞書と特徴データから登録されている人物への類似度を算出する積和演算手段と、
登録されている人物への類似度の最大値を求める最大類似度人物判定手段と、
前記類似度の最大値を予め定められたしきい値と比較して、他人かどうかを判定するしきい値処理手段と、
を備えたことを特徴とするロボット装置。 In the said person identification device of the robot apparatus as described in any one of Claims 1 thru | or 3 ,
The face identification means is
A sum-of-products operation means for calculating the similarity to the registered person from the linear discrimination dictionary and the feature data;
Maximum similarity person determination means for obtaining a maximum value of similarity to a registered person;
A threshold value processing means for comparing the maximum value of the similarity with a predetermined threshold value to determine whether or not another person;
A robot apparatus comprising:
前記顔識別手段が、
他人を判別するための固有ベクトル辞書と特徴データから固有ベクトル投影距離を算出して距離値を比較する固有ベクトル他人判別手段と、
線形判別辞書と特徴データから登録されている人物への類似度を算出する積和演算手段と、登録されている人物への類似度の最大値を求める最大類似度人物判定手段と、
前記類似度の最大値をあらかじめ定められたしきい値と比較して、他人かどうかを判定するしきい値処理手段と、
を備えたことを特徴とするロボット装置。 In the said person identification device of the robot apparatus as described in any one of Claims 1 thru | or 3 ,
The face identification means is
Eigenvector other person discrimination means for calculating an eigenvector projection distance from the eigenvector dictionary and feature data for discriminating others and comparing distance values;
A product-sum operation means for calculating the similarity to the registered person from the linear discrimination dictionary and the feature data; a maximum similarity person determination means for obtaining the maximum value of the similarity to the registered person;
A threshold value processing means for comparing the maximum value of the similarity with a predetermined threshold value to determine whether or not another person;
A robot apparatus comprising:
前記取得された画像情報から人の頭部を検出する頭部検出追跡手段と、
前記検出された頭部の部分画像中から正面顔画像を取得する正面顔位置合わせ手段と、
正面顔画像を特徴量に変換する顔特徴抽出手段と、
識別辞書を用いて特徴量から人物を識別する顔識別手段と、
識別辞書を保存する識別辞書記憶手段と、
前記顔識別手段から出力される識別結果を過去Nフレーム分(Nは2以上の整数)加重平均する識別結果補正手段と、
を含む人物識別装置と、
ロボットの動作を制御する全体制御部と、
前記全体制御部の指示で音声を発話する音声出力手段と、
前記全体制御部の指示でロボットを移動する移動手段と、
を備えたことを特徴とするロボット装置。Video acquisition means for acquiring images;
Head detection tracking means for detecting a human head from the acquired image information;
A front face alignment means for obtaining a front face image from the detected partial image of the head;
Facial feature extraction means for converting a front face image into a feature quantity;
Face identification means for identifying a person from a feature quantity using an identification dictionary;
An identification dictionary storage means for storing the identification dictionary;
Identification result correction means for weighted average of the identification results output from the face identification means for the past N frames (N is an integer of 2 or more);
A person identification device including:
An overall control unit for controlling the operation of the robot;
A voice output means for speaking a voice in response to an instruction from the overall control unit;
Moving means for moving the robot in accordance with instructions from the overall control unit;
A robot apparatus comprising:
人物識別結果を取得する手段と、
前記対面距離がしきい値以上の場合には、前記前方物体に近づくように移動する手段と、
前記対面距離がしきい値以下のときは、人物識別結果を人物毎に異なる音声で発話するように制御する手段と、
を備えたことを特徴とする請求項6記載のロボット装置。Means for acquiring a facing distance and direction of a front object from the person identification device;
Means for obtaining a person identification result;
If the facing distance is greater than or equal to a threshold value, means for moving to approach the front object;
When the face-to-face distance is less than or equal to a threshold value, means for controlling the person identification result to be uttered with a different voice for each person
The robot apparatus according to claim 6, further comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001158402A JP3823760B2 (en) | 2001-05-28 | 2001-05-28 | Robot equipment |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001158402A JP3823760B2 (en) | 2001-05-28 | 2001-05-28 | Robot equipment |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP02158399A Division JP3307354B2 (en) | 1999-01-29 | 1999-01-29 | Personal identification method and apparatus and recording medium recording personal identification program |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006034936A Division JP4860289B2 (en) | 2006-02-13 | 2006-02-13 | Robot equipment |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002056388A JP2002056388A (en) | 2002-02-20 |
JP3823760B2 true JP3823760B2 (en) | 2006-09-20 |
Family
ID=19002134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001158402A Expired - Fee Related JP3823760B2 (en) | 2001-05-28 | 2001-05-28 | Robot equipment |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3823760B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014229015A (en) * | 2013-05-21 | 2014-12-08 | 富士ソフト株式会社 | Face recognition device, face recognition method, and computer program |
US10878657B2 (en) | 2018-07-25 | 2020-12-29 | Konami Gaming, Inc. | Casino management system with a patron facial recognition system and methods of operating same |
US11521460B2 (en) | 2018-07-25 | 2022-12-06 | Konami Gaming, Inc. | Casino management system with a patron facial recognition system and methods of operating same |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4072033B2 (en) | 2002-09-24 | 2008-04-02 | 本田技研工業株式会社 | Reception guidance robot device |
JP3879848B2 (en) | 2003-03-14 | 2007-02-14 | 松下電工株式会社 | Autonomous mobile device |
US8433580B2 (en) | 2003-12-12 | 2013-04-30 | Nec Corporation | Information processing system, which adds information to translation and converts it to voice signal, and method of processing information for the same |
JP2007115129A (en) * | 2005-10-21 | 2007-05-10 | Sumitomo Electric Ind Ltd | Obstacle detection system, obstacle detection method, and computer program |
EP1997070B1 (en) | 2006-03-22 | 2018-01-03 | Pilz GmbH & Co. KG | Method and device for determining correspondence, preferably for the three-dimensional reconstruction of a scene |
JP5096980B2 (en) * | 2008-03-28 | 2012-12-12 | 綜合警備保障株式会社 | Mobile object, mobile object direction control method, and mobile object direction control program |
JP2010250730A (en) * | 2009-04-20 | 2010-11-04 | Sanyo Electric Co Ltd | Image processing apparatus and imaging device |
WO2014033936A1 (en) * | 2012-08-31 | 2014-03-06 | 富士通株式会社 | Image processing device, image processing method, and image processing program |
CN106228112B (en) * | 2016-07-08 | 2019-10-29 | 深圳市优必选科技有限公司 | Face detection tracking method, robot head rotation control method and robot |
JP6671577B2 (en) * | 2016-11-07 | 2020-03-25 | Groove X株式会社 | An autonomous robot that identifies people |
JP7402721B2 (en) * | 2020-03-24 | 2023-12-21 | 株式会社フジタ | speech control device |
CN116564005B (en) * | 2023-07-11 | 2023-09-08 | 深圳市瑞凯诺科技有限公司 | Wireless starting method and system for intelligent charging pile |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6385979A (en) * | 1986-09-30 | 1988-04-16 | Toshiba Corp | Work station |
JPH0351996A (en) * | 1989-07-19 | 1991-03-06 | Mitsubishi Electric Corp | Monitor device |
GB9019538D0 (en) * | 1990-09-07 | 1990-10-24 | Philips Electronic Associated | Tracking a moving object |
JPH0520442A (en) * | 1991-07-17 | 1993-01-29 | Nippon Telegr & Teleph Corp <Ntt> | Face image matching device |
JPH0573663A (en) * | 1991-09-17 | 1993-03-26 | Nippon Telegr & Teleph Corp <Ntt> | Image recognition method for 3D objects |
JPH0816958B2 (en) * | 1991-12-11 | 1996-02-21 | 茨城警備保障株式会社 | Security surveillance system |
JPH06119433A (en) * | 1992-10-01 | 1994-04-28 | Toshiba Corp | Figure authentication device |
JPH06259534A (en) * | 1993-03-03 | 1994-09-16 | Toshiba Corp | Person identifying device |
JPH0723012A (en) * | 1993-06-30 | 1995-01-24 | Takahashi Takeshi | Audience rating survey system |
JP3129595B2 (en) * | 1993-12-13 | 2001-01-31 | シャープ株式会社 | Image processing device |
JPH07213753A (en) * | 1994-02-02 | 1995-08-15 | Hitachi Ltd | Personal robot equipment |
JPH08161498A (en) * | 1994-12-05 | 1996-06-21 | Minolta Co Ltd | Object recognition device |
JP3534368B2 (en) * | 1996-04-03 | 2004-06-07 | 株式会社東芝 | Moving image processing method and moving image processing apparatus |
JP3279479B2 (en) * | 1996-05-31 | 2002-04-30 | 株式会社日立国際電気 | Video monitoring method and device |
JPH10105217A (en) * | 1996-09-27 | 1998-04-24 | Mitsubishi Electric Corp | Robot tracking control method and robot control system |
JP3323772B2 (en) * | 1997-02-13 | 2002-09-09 | 本田技研工業株式会社 | Autonomous mobile robot with deadlock prevention device |
-
2001
- 2001-05-28 JP JP2001158402A patent/JP3823760B2/en not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014229015A (en) * | 2013-05-21 | 2014-12-08 | 富士ソフト株式会社 | Face recognition device, face recognition method, and computer program |
US10878657B2 (en) | 2018-07-25 | 2020-12-29 | Konami Gaming, Inc. | Casino management system with a patron facial recognition system and methods of operating same |
US11455864B2 (en) | 2018-07-25 | 2022-09-27 | Konami Gaming, Inc. | Casino management system with a patron facial recognition system and methods of operating same |
US11521460B2 (en) | 2018-07-25 | 2022-12-06 | Konami Gaming, Inc. | Casino management system with a patron facial recognition system and methods of operating same |
US12087130B2 (en) | 2018-07-25 | 2024-09-10 | Konami Gaming, Inc. | Casino management system with a patron facial recognition system and methods of operating same |
US12106630B2 (en) | 2018-07-25 | 2024-10-01 | Konami Gaming, Inc. | Casino management system with a patron facial recognition system and methods of operating same |
Also Published As
Publication number | Publication date |
---|---|
JP2002056388A (en) | 2002-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3307354B2 (en) | Personal identification method and apparatus and recording medium recording personal identification program | |
JP4860289B2 (en) | Robot equipment | |
US8942436B2 (en) | Image processing device, imaging device, image processing method | |
JP5629803B2 (en) | Image processing apparatus, imaging apparatus, and image processing method | |
JP3823760B2 (en) | Robot equipment | |
JP4743823B2 (en) | Image processing apparatus, imaging apparatus, and image processing method | |
US8837786B2 (en) | Face recognition apparatus and method | |
US7127086B2 (en) | Image processing apparatus and method | |
JP5642410B2 (en) | Face recognition device and face recognition method | |
US20100296706A1 (en) | Image recognition apparatus for identifying facial expression or individual, and method for the same | |
JP2004133889A (en) | Method and system for recognizing image object | |
JP2007213378A (en) | Specific facial expression detection method, imaging control method and apparatus, and program | |
JPH10320562A (en) | Human face detection system and detection method | |
Baltzakis et al. | Visual tracking of hands, faces and facial features of multiple persons | |
JPH10307923A (en) | Face part extraction device and face direction detection device | |
CN112784712A (en) | Missing child early warning implementation method and device based on real-time monitoring | |
JP2007213528A (en) | Action recognition system | |
Göcke et al. | Automatic extraction of lip feature points | |
JP2021043914A (en) | Image processing device, image processing method, and image processing program | |
JP6555940B2 (en) | Subject tracking device, imaging device, and method for controlling subject tracking device | |
JP4061405B2 (en) | Face image classification registration device | |
JP4036005B2 (en) | Imaging condition detection apparatus and imaging condition detection program | |
Youssef | Hull convexity defect features for human action recognition | |
JP4789526B2 (en) | Image processing apparatus and image processing method | |
JP3841482B2 (en) | Face image recognition device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050729 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050906 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051107 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060213 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060307 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060404 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20060404 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20060404 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20060522 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060606 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060619 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100707 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110707 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110707 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120707 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120707 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130707 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |