JP2006004003A

JP2006004003A - 画像処理装置および方法、記録媒体、並びにプログラム

Info

Publication number: JP2006004003A
Application number: JP2004177420A
Authority: JP
Inventors: Atsushi Okubo; 厚志大久保; Kotaro Sabe; 浩太郎佐部
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-06-15
Filing date: 2004-06-15
Publication date: 2006-01-05
Anticipated expiration: 2024-06-15
Also published as: JP4569186B2

Abstract

【課題】位置のずれや変形に関わらず、人の顔を判定できるようにする。
【解決手段】類似度ベクトル演算部１０４は、入力された画像から特徴点検出部１０１と特徴量演算部１０２により演算された特徴点の特徴量と、読み出し部１０３により登録部１１１から読み出された登録画像の特徴量に基づいて類似度を演算する。クラス判定部１０５は、類似度ベクトル演算部１０４により演算された類似度ベクトルを、内蔵するサポートベクタマシンに代入し、入力された画像が、人の顔の画像であるのか否か（intra-personal classまたはextra-personal classのいずれのクラスの画像であるのか）を判定する。出力部１０８は、入力された画像が、人の顔の画像であるのか否かの判定結果を出力する。本発明は、人の顔を識別するロボットに適用することが可能である。
【選択図】図２

Description

本発明は、画像処理装置および方法、記録媒体、並びにプログラムに関し、特に、画像の変形や傾きに関わらず、安定して画像を判定することができるようにした画像処理装置および方法、記録媒体、並びプログラムに関する。

例えば、ロボットに人の顔を識別させるのに、サポートベクタマシン（Support Vector Machines （SVM））を利用することが知られている。サポートベクタマシン（SVM）は、汎化能力の高い強力なパターン識別手法としてよく知られているが、この手法を用いて顔識別を行う場合には以下の問題点がある。

１．性能の良い識別器を構成するためには学習時に大量の教師データが必要である。
２．学習には非常に計算時間がかかる。
３．２クラスの識別しかできない。

SVMを利用した顔識別アルゴリズムを紹介する代表的なものに、非特許文献１の論文がある。この論文の技術ではq人分の人物を識別するために、登録された特定の人物クラスとそれ以外の人物クラスを識別するq個のSVMの識別器が利用される。この技術は、個々の識別器の学習用教師データには、登録したい人物と既に登録されているその他の人物の顔画像データを大量に必要としているため、学習はオフラインで行う必要があり、顔の登録には非常に時間がかかるという問題がある。

上記の問題を解決するため、Jonathon Phillipsらは非特許文献２において、Baback Moghaddamらが非特許文献３で提案している差分顔によるPCA（Principal Components Analysis）を用いた顔識別の方法で、PCAの代わりにSVMでクラス識別を行うことにより、リアルタイムに顔の登録・追加学習が可能な、より精度の高い顔識別アルゴリズムを提案している。

Babackらの差分顔による顔識別の方法は、２クラスの識別を行う識別器（PCAとベイズ推定を組み合わせた方法）を１つだけ用いる構成で任意の人数の顔を識別し、リアルタイムに顔の登録が可能な方法であり、これは顔画像が変化する要因は一般的に以下のように大きく２つに分類することが可能であるという事実に基づいている。

１．intra-personal variations : 照明条件や表情・成長等による同一人物における顔画像の変化
２．extra-personal variations: 人物の相違による顔画像の変化

Bernd Heisele, "Face Recognition with Support Vector Machines: Global versus Component-based Approach", Massachusetts Institute of Technology Center for Biological and Computational Learning Canmbridge, U.S.A. P. Jonathon Phillips, "Support Vector Machines Applied to Face Recognition", NISTIR 6241, U.S. Department of commerce Technology Administration, National Institute of Standards and Technology, November 1998 Baback Moghaddam, "Beyond Eigenfaces: Probabilistic Matching for Face Recognition", MIT Media Laboratory, U.S.A.

Babackらの手法では、同一人物の２枚の顔画像の差分顔クラス(intra-personal class)と別人物の２枚の顔画像の差分顔クラス(extra-personal class)を、予め大量の教師画像からPCAを用いて学習する。この学習データには登録される人物の顔画像が含まれる必要がない。これにより、顔の登録時には再度学習を行わせる必要がなく、差分画像生成用の登録画像をそのまま保存するだけであるため、リアルタイム顔登録処理が可能となる。この手法では、それぞれのクラスの分布がガウス分布すると仮定して、クラス存在確率をPCAとベイズ推定を組み合わせた方法により求めているが、この仮定は照明条件などが非常に整った環境以外では十分に成り立たない。このため、ロボット等に要求される自然な環境での顔画像の変化には十分に対応できず、満足な性能が出ないことが多いという問題点がある。また、差分画像が２枚の顔画像の変化を十分に表すためには、２枚の顔画像の各特徴点間の正確な位置合わせを行った後で差分画像を生成する必要がある。これを行うためにBabackらは、目鼻等の特徴位置をPCAを用いたパターンマッチングで求めて、それら特徴位置が同じ位置に来るようにアフィン変換を行った後に差分画像の生成を行っているが、この方法では２枚の顔画像間の顔の変形や傾きが大きくなるにつれて著しく性能が低下する課題がある。

また、Jonathonらが提案している方法は、このクラス識別にPCAとベイズ推定ではなく、SVMを用いている。これにより、クラスの分布がガウス分布より複雑な分布になっても正しい判別が可能になり、照明条件等に変化の含まれる環境下での識別性能が向上しているが、差分顔を用いているため同様に２枚の顔画像間の顔の変形や傾きが大きくなるにつれて著しく性能が低下する課題がある。

本発明は、このような状況に鑑みてなされたものであり、顔の変形や傾きに関わらず、安定して識別を行えるようにするものである。

請求項１の画像処理装置は、入力された画像データの画像の特徴点を検出する特徴点検出手段と、前記特徴点の局所的な特徴量をガボアフィルタにより検出する特徴量検出手段と、検出された特徴量と、予め登録されている画像の特徴量との類似度を演算する演算手段と、入力された前記画像データの画像のクラスを前記類似度に基づいてサポートベクタマシンにより判定する判定手段とを備えることを特徴とする。

入力された画像データの画像が、予め登録されている画像に属しないクラスであると判定された場合、特徴量を登録する登録手段をさらに備えるようにすることができる。

請求項３の画像処理方法は、入力された画像データの画像の特徴点を検出する特徴点検出ステップと、前記特徴点の局所的な特徴量をガボアフィルタにより検出する特徴量検出ステップと、検出された特徴量と、予め登録されている画像の特徴量との類似度を演算する演算ステップと、入力された前記画像データの画像のクラスを前記類似度に基づいてサポートベクタマシンにより判定する判定ステップとを含むことを特徴とする。

請求項４の記録媒体のプログラムは、入力された画像データの画像の特徴点を検出する特徴点検出ステップと、前記特徴点の局所的な特徴量をガボアフィルタにより検出する特徴量検出ステップと、検出された特徴量と、予め登録されている画像の特徴量との類似度を演算する演算ステップと、入力された前記画像データの画像のクラスを前記類似度に基づいてサポートベクタマシンにより判定する判定ステップとを含むことを特徴とする。

請求項５のプログラムは、入力された画像データの画像の特徴点を検出する特徴点検出ステップと、前記特徴点の局所的な特徴量をガボアフィルタにより検出する特徴量検出ステップと、検出された特徴量と、予め登録されている画像の特徴量との類似度を演算する演算ステップと、入力された前記画像データの画像のクラスを前記類似度に基づいてサポートベクタマシンにより判定する判定ステップとをコンピュータに実行させることを特徴とする。

請求項６の画像処理装置は、対となるイントラパーソナルクラスに属する学習用の第１の画像データと、対となるエクストラパーソナルクラスに属する学習用の第２の画像データを取得する取得手段と、前記第１の画像データと前記第２の画像データにラベルを対応付けるラベル付け手段と、前記第１の画像データと前記第２の画像データの画像の特徴点を検出する特徴点検出手段と、前記特徴点の特徴量をガボアフィルタにより検出する特徴量検出手段と、対となる前記第１の画像データの類似度と、対となる前記第２の画像データの類似度を演算する類似度演算手段と、前記ラベルと前記類似度に基づいて、サポートベクタを演算するサポートベクタ演算手段とを備えることを特徴とする。

請求項７の画像処理方法は、対となるイントラパーソナルクラスに属する学習用の第１の画像データと、対となるエクストラパーソナルクラスに属する学習用の第２の画像データを取得する取得ステップと、前記第１の画像データと前記第２の画像データにラベルを対応付けるラベル付けステップと、前記第１の画像データと前記第２の画像データの画像の特徴点を検出する特徴点検出ステップと、前記特徴点の特徴量をガボアフィルタにより検出する特徴量検出ステップと、対となる前記第１の画像データの類似度と、対となる前記第２の画像データの類似度を演算する類似度演算ステップと、前記ラベルと前記類似度に基づいて、サポートベクタを演算するサポートベクタ演算ステップとを含むことを特徴とする。

請求項８の記録媒体のプログラムは、対となるイントラパーソナルクラスに属する学習用の第１の画像データと、対となるエクストラパーソナルクラスに属する学習用の第２の画像データを取得する取得ステップと、前記第１の画像データと前記第２の画像データにラベルを対応付けるラベル付けステップと、前記第１の画像データと前記第２の画像データの画像の特徴点を検出する特徴点検出ステップと、前記特徴点の特徴量をガボアフィルタにより検出する特徴量検出ステップと、対となる前記第１の画像データの類似度と、対となる前記第２の画像データの類似度を演算する類似度演算ステップと、前記ラベルと前記類似度に基づいて、サポートベクタを演算するサポートベクタ演算ステップとを含むことを特徴とする。

請求項９のプログラムは、対となるイントラパーソナルクラスに属する学習用の第１の画像データと、対となるエクストラパーソナルクラスに属する学習用の第２の画像データを取得する取得ステップと、前記第１の画像データと前記第２の画像データにラベルを対応付けるラベル付けステップと、前記第１の画像データと前記第２の画像データの画像の特徴点を検出する特徴点検出ステップと、前記特徴点の特徴量をガボアフィルタにより検出する特徴量検出ステップと、対となる前記第１の画像データの類似度と、対となる前記第２の画像データの類似度を演算する類似度演算ステップと、前記ラベルと前記類似度に基づいて、サポートベクタを演算するサポートベクタ演算ステップとをコンピュータに実行させることを特徴とする。

本発明においては、入力された画像データの特徴点の特徴量と、予め登録されている画像データの特徴点の特徴量との類似度が演算され、その類似度に基づいて、サポートベクタマシンにより画像データのクラスが判定される。

また、本発明においては、第１の画像データと第２の画像データに対応付けられたラベル、並びに、第１の画像データの類似度と第２の画像データの類似度に基づいて、サポートベクタが演算される。

本発明によれば、画像データのクラスを判定することができる。特に、画像の変形や傾きに関わらず、安定して判定を行うことが可能となる。また、リアルタイムで画像を登録することが可能となる。

さらに本発明によれば、画像データのクラスを判定可能な装置を提供することができる。特に、画像での変形や傾きに関わらず、安定して判定を行うことができ、また、リアルタイムで画像の登録が可能な装置を提供することができる。

以下に本発明の最良の形態を説明するが、開示される発明と実施の形態との対応関係を例示すると、次のようになる。明細書中には記載されているが、発明に対応するものとして、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その発明に対応するものではないことを意味するものではない。逆に、実施の形態が発明に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その発明以外の発明には対応しないものであることを意味するものでもない。

さらに、この記載は、明細書に記載されている発明の全てを意味するものではない。換言すれば、この記載は、明細書に記載されている発明であって、この出願では請求されていない発明の存在、すなわち、将来、分割出願されたり、補正により出現し、追加される発明の存在を否定するものではない。

請求項１の画像処理装置（例えば、図１の画像処理装置１）は、入力された画像データの画像の特徴点を検出する特徴点検出手段（例えば、図３のステップS33の処理を実行する図２の特徴点検出部101）と、前記特徴点の局所的な特徴量をガボアフィルタにより検出する特徴量検出手段（例えば、図３のステップS34の処理を実行する図２の特徴量演算部102）と、検出された特徴量と、予め登録されている画像の特徴量との類似度を演算する演算手段（例えば、図３のステップS36の処理を実行する図２の類似度ベクトル演算部104）と、入力された前記画像データの画像のクラスを前記類似度に基づいてサポートベクタマシンにより判定する判定手段（例えば、図３のステップS37の処理を実行する図２のクラス判定部105）とを備えることを特徴とする。

入力された前記画像データの画像が、予め登録されている画像に属しないクラスであると判定された場合、前記特徴量を登録する登録手段（例えば、図３のステップS45の処理を実行する図２の登録部111）をさらに備えることができる。

請求項３の画像処理方法、請求項４の記録媒体のプログラム、並びに請求項５のプログラムは、入力された画像データの画像の特徴点を検出する特徴点検出ステップ（例えば、図３のステップS33）と、前記特徴点の局所的な特徴量をガボアフィルタにより検出する特徴量検出ステップ（例えば、図３のステップS34）と、検出された特徴量と、予め登録されている画像の特徴量との類似度を演算する演算ステップ（例えば、図３のステップS36）と、入力された前記画像データの画像のクラスを前記類似度に基づいてサポートベクタマシンにより判定する判定ステップ（例えば、図３のステップS37）とを含むことを特徴とする。

請求項６の画像処理装置（例えば、図５の画像処理装置151）は、対となるイントラパーソナルクラスに属する学習用の第１の画像データと、対となるエクストラパーソナルクラスに属する学習用の第２の画像データを取得する取得手段（例えば、図６のステップS61の処理を実行する図５の取得部161）と、前記第１の画像データと前記第２の画像データにラベルを対応付けるラベル付け手段（例えば、図６のステップS62の処理を実行する図５のラベル付け部162）と、前記第１の画像データと前記第２の画像データの画像の特徴点を検出する特徴点検出手段（例えば、図６のステップS65の処理を実行する図５の特徴点検出部165）と、前記特徴点の特徴量をガボアフィルタにより検出する特徴量検出手段（例えば、図６のステップS66の処理を実行する図５の特徴量演算部166）と、対となる前記第１の画像データの類似度と、対となる前記第２の画像データの類似度を演算する類似度演算手段（例えば、図６のステップS67の処理を実行する図５の類似度ベクトル演算部167）と、前記ラベルと前記類似度に基づいて、サポートベクタを演算するサポートベクタ演算手段（例えば、図６のステップS68の処理を実行する図５のサポートベクタ演算部168）とを備えることを特徴とする。

請求項７の画像処理方法、請求項８の記録媒体のプログラム、並びに請求項９のプログラムは、対となるイントラパーソナルクラスに属する学習用の第１の画像データと、対となるエクストラパーソナルクラスに属する学習用の第２の画像データを取得する取得ステップ（例えば、図６のステップS61）と、前記第１の画像データと前記第２の画像データにラベルを対応付けるラベル付けステップ（例えば、図６のステップS62）と、前記第１の画像データと前記第２の画像データの画像の特徴点を検出する特徴点検出ステップ（例えば、図６のステップS65）と、前記特徴点の特徴量をガボアフィルタにより検出する特徴量検出ステップ（例えば、図６のステップS66）と、対となる前記第１の画像データの類似度と、対となる前記第２の画像データの類似度を演算する類似度演算ステップ（例えば、図６のステップS67）と、前記ラベルと前記類似度に基づいて、サポートベクタを演算するサポートベクタ演算ステップ（例えば、図６のステップS68）とを含むことを特徴とする。

以下、図を参照して、本発明の実施の形態について説明する。

図１は、本発明を適用した画像処理装置の構成例を表している。この画像処理装置１は、入力された画像データの画像から目、口、鼻といった顔の特徴をガボアフィルタリングにより抽出する顔抽出部１１、並びに顔抽出部１１により抽出された目、口、鼻などに基づいて、その画像が人の顔であるか否かを認識する顔認識部１２により構成されている。

顔認識部１２は、顔画像アライメント部５１、クラス判断部５２、および学習データベース５３により構成されている。顔画像アライメント部５１は、顔抽出部１１より供給された顔の目、口、鼻といった特徴の特徴位置に基づいて、それらが通常、人の顔として位置する位置にくるように、アフィン変換などのモーフィング処理を行う。クラス判断部５２は、学習データベース５３に登録されている学習データを参照して、入力画像が登録済みの顔と同一人物クラスに属するか否かを判断する。

顔抽出部１１は、入力された画像が、顔の画像であり、さらに顔の目の画像であるか、口の画像であるか、または鼻の画像であると判断できた場合には、その顔の中の位置を検出し、その位置情報を画像データとともに顔認識部１２の顔画像アライメント部５１に供給する。

顔画像アライメント部５１は、顔特徴位置が、基準位置にくるように、アフィン変換などのモーフィング処理を行う。これにより、例えば正面からみた顔の画像である場合には、左右の目が水平な位置に所定の距離はなれて位置し、左右の目の中間の下方に鼻が位置し、その鼻よりさらに下方に口が位置するようにモーフィング処理が行われる。その結果、顔画像の識別が容易になる。

クラス判断部５２は、顔画像アライメント部５１によりアライメントされた顔画像の画像データが、学習データベース５３に予め登録されている顔画像の画像データと一致するか否かを判断する。このため、クラス判断部５２は、図２に示されるような、機能的構成を有している。

すなわち、クラス判断部５２は、特徴点検出部１０１、特徴量演算部１０２、読み出し部１０３、類似度ベクトル演算部１０４、クラス判定部１０５、重複判定部１０６、選択部１０７、出力部１０８、表示部１０９、指示判定部１１０、および登録部１１１を有している。

特徴点検出部１０１は、顔画像アライメント部５１より入力された画像データに基づく顔画像の特徴点を検出する。特徴量演算部１０２は、特徴点検出部１０１により検出された特徴点の特徴量を演算し、類似度ベクトル演算部１０４に供給する。特徴量演算部１０２は、ガボアフィルタ（Gabor Filter）で構成される。

ここで、ガボアフィルタの処理（ガボアフィルタリング）について説明する。まず人間の視覚細胞には、ある特定の方位に対して選択性を持つ細胞が存在することが既に判っている。これは、垂直の線に対して反応する細胞と、水平の線に反応する細胞で構成される。ガボアフィルタリングは、これと同様に、方位選択性を持つ複数のフィルタで構成される空間フィルタである。

ガボアフィルタは、ガボア関数によって空間表現される。ガボア関数ｇ（ｘ，ｙ）は、次式に示すように、コサイン成分からなるキャリアｓ（ｘ，ｙ）と、２次元ガウス分析状のエンベローブＷｒ（ｘ，ｙ）とで構成される。

キャリアｓ（ｘ，ｙ）は、複数関数を用いて、次の式（２）のように表現される。ここで、座標値（ｕ₀，ｖ₀）は空間周波数を表し、またＰはコサイン成分の位相を表す。

式（２）に示すキャリアは、次式（３）に示すように、実数成分Ｒｅ（ｓ（ｘ，ｙ））と虚数成分Ｉｍ（ｓ（ｘ，ｙ））に分離することができる。

一方、２次元ガウス分布からなるエンベローブは、次式のように表現される。

ここで、座標軸（ｘ₀，ｙ₀）はこの関数のピークであり、定数ａ及びｂはガウス分布のスケール・パラメータである。また、添字ｒは、次式に示すような回転操作を意味する。

従って、上述の式（２）及び式（４）より、ガボアフィルタは、次式に示すような空間関数として表現される。

本実施の形態に係る特徴量演算部１０２は、８種類の方向と３通りの周波数を採用して、合計２４個のガボアフィルタを用いて顔の目、口、鼻等の抽出処理を行う。

ガボアフィルタのレスポンスは、Ｇ_iをｉ番目のガボアフィルタとし、ｉ番目のガボアフィルタの結果（Gabor Jet）をＪ_iとし、入力イメージをＩとすると、次式で表される。

この式（７）の演算は、実際には高速フーリエ変換を用いて高速化することができる。

作成したガボアフィルタの性能を調べるためには、フィルタリングして得られた画素を再構築することによって行う。再構築されたイメージＨは、次式のように表される。

そして、入力画像Ｉと再構築された画像ＨとのエラーＥは、次式のように表される。

このエラーＥを最小にするような最適なａを求めることにより再構築することができる。

なお、ガボアフィルタリングに関しては、認識タスクに応じてフィルタの種類を変更するようにしても良い。

低周波でのフィルタリングでは、フィルタリング後のイメージすべてをベクトルとして持っているのは冗長である。そこで、ダウンサンプリングして、ベクトルの次元を落とすようにしても良い。ダウンサンプリングされた24種類のベクトルを一列に並べ、長いベクトル（上述したパターンベクトル）にする。

読み出し部１０３は、特徴点検出部１０１により検出された特徴点に対応する登録画像の特徴点を登録部１１１から読み出し、類似度ベクトル演算部１０４に出力する。

類似度ベクトル演算部１０４は、特徴量演算部１０２により演算された入力画像の特徴量と、読み出し部１０３により読み出された登録画像の特徴量に基づいて、入力された顔画像と登録されている顔画像の類似度ベクトルを演算する。

クラス判定部１０５は、サポートベクタマシンにより構成され、類似度ベクトル演算部１０４より供給された類似度ベクトルに基づいて、入力された画像がintra-personal class（イントラパーソナルクラス）に属するか（予め登録されている画像と一致するのか）、またはextra-personal class（エクストラパーソナルクラス）に属するのか（予め登録されている画像以外の画像である（登録画像と一致しない）のか）の判定を行う。重複判定部１０６は、クラス判定部１０５により入力された画像がintra-personal classに属すると判定された場合、クラス判定部１０５により重複判定が行われたか否かを判定する。すなわち、入力された画像が、複数の登録画像と一致すると判定されたか否かが判定される。選択部１０７は、重複判定部１０６により重複判定が行われた場合には、一致すると判定された登録画像のいずれか１つを選択する処理を行う。選択部１０７は、重複判定部１０６により重複判定が行われなかったと判定された場合には、クラス判定部１０５により判定されたクラスの画像をそのまま選択する。出力部１０８は、選択部１０７より選択された画像を後段の装置に出力したり、表示部１０９に表示させたりする。

表示部１０９は、クラス判定部１０５により入力された画像がintra-personal classではなく、extra-personal classに属すると判定された場合、メッセージを表示する。指示判定部１１０は、表示部１０９により表示されたメッセージに基づいて、ユーザが入力された画像の登録を指示したか否かを判定する。登録部１１１は、指示判定部１１０により入力された画像の登録が指示されたと判定された場合、特徴量演算部１０２により演算された特徴量を、必要に応じて、入力された顔画像データとともに登録する。

クラス判定部１０５では、パターン認識の分野で最も学習汎化能力が高いとされるサポートベクタマシン（Support Vector Machine：SVM）を用いて該当する顔か否かの識別を行うが、このサポートベクタマシンについて、ここで説明する。

サポートベクタマシン自体に関しては、例えばB.sholkopf外著の報告（B.Sholkopf、C.Burges、A.Smola，“Advance in Kernel Support Vector Learning”，The MIT Press、1999.）を挙げることができる。本出願人が行った予備実験の結果からは、サポートベクタマシンによる顔認識方法は、主成分分析（PCA）やニューラル・ネットワークを用いる手法に比べ、良好な結果を示すことが判っている。

サポートベクタマシンは、識別関数に線形識別器（パーセプトロン）を用いた学習機械であり、カーネル関数を使うことで非線形空間に拡張することができる。また識別関数の学習では、クラス間分離のマージンを最大にとるように行われ、その解は２次数理計画法を解くことで得られるため、グローバル解に到達できることを理論的に保証することができる。

通常、パターン認識の問題は、テストサンプルｘ＝（ｘ１，ｘ２，・・・，ｘｎ）に対して、次式で与えられる識別関数ｆ（ｘ）を求めることである。

ここで、サポートベクタマシンの学習用の教師ラベルを次式のようにおく。

すると、サポートベクタマシンにおける顔パターンの認識を次式に示す制約条件の下での重み因子ｗの２乗を最小化する問題としてとらえることができる。

このような制約のついた問題は、ラグランジュの未定定数法を用いて解くことができる。すなわち、式（１３）に示すラグランジュをまず導入し、次いで、式（１４）に示すように、ｂ、ｗの各々について偏微分する。

この結果、サポートベクタマシンにおける顔パターンの識別を次式に示す２次計画問題としてとらえることができる。

特徴空間の次元数が、訓練サンプルの数よりも少ない場合は、スクラッチ変数ξ≧０を導入して、制約条件を次式のように変更する。

最適化については、次式の目的関数を最小化する。

この式（１７）において、Ｃは、制約条件をどこまで緩めるかを指定する係数であり、実験的に値を決定する必要がある。

ラグランジュ定数ａに関する問題は次式のように変更される。

しかし、この式（１８）のままでは、非線型の問題を解くことはできない。そこで、本実施の形態では、カーネル関数Ｋ（ｘ，ｘ3）を導入して、一旦、高次元の空間に写像して（カーネル・トリック）、その空間で線形分離することにしている。したがって、元の空間では非線型分離していることと同等となる。

カーネル関数は、ある写像Φを用いて次式のように表される。

また、式（１０）に示した識別関数も、次式のように表すことができる。

また学習に関しても、次式に示す２次計画問題としてとらえることができる。

カーネルとしては、次式に示すガウシアン・カーネル（RBF：Radius Basic Function）などを用いることができる。

次に、図３のフローチャートを参照して、画像処理装置１の認識処理について説明する。ステップＳ３１において、顔抽出部１１は、入力された画像データから顔を抽出する。具体的には、顔の目、口、鼻といった顔の特徴を抽出する。ステップＳ３２において、顔画像アライメント部５１は、目、口、鼻をアライメントする。具体的には、目、口、鼻等が、常識的な位置関係に位置するように、その位置を調整する。

ステップＳ３３において、特徴点検出部１０１は、顔画像アライメント部５１より入力された顔画像データの顔の特徴点を検出する。いずれの点を特徴点とするかは任意であるが、例えば、図４に示されるように、水平方向と垂直方向に一定の間隔で離れて位置する画素（図４において、×印で示される画素）を特徴点とすることができる。図４において、左側の画像が入力された顔画像データによる顔の入力画像を表し、右側の画像が登録されている顔画像データによる顔の登録画像を表す。

ステップＳ３４において、ガボアフィルタにより特徴点の特徴量を求める処理が行われる。すなわち、特徴量演算部１０２は、入力画像の特徴位置ｘ_Vi（ｉ＝１,・・・，Ｍ）における特徴点（以下、必要に応じて、この特徴点を特徴点ｘ_Viとも称する）の局所的特徴量である特徴量Ｊ_j（ｘ_Vi）を次式に基づいて演算する。なお、以下の式において、ｘ_V，ｋ_Vにおける添字Ｖは、ｘ,ｋがベクトルであることを表す。また、ｘ’_Vは、ｘ_Vの微分値を表す。

上記式において、Ｉ（ｘ_Vi）は、特徴位置ｘ_Viにおける入力顔画像の画素値（濃淡値）を表し、Ψ_j（ｘ_V）により畳み込み積分される。Ψ_j（ｘ_V）は、ガボアカーネル（Gabor Kernel）と称され、周波数パラメータν，方向パラメータμから定まるｋ_Vjで示す特定の方向、周波数における局所特徴量を抽出するガボアフィルタを構成する。ガボアフィルタの様々な周波数、方向における出力値はまとめてガボアジェット（Gabor Jet）Ｊ_j（ｘ_Vj）と称され、特徴位置ｘ_Viにおける特徴量として用いられる。ガボアジェットは、特徴点の周辺の局所特徴量を表しており、特徴点のある程度の位置のずれや変形に対して、不変であるという特徴を有している。

ステップＳ３５において、読み出し部１０３は、登録顔の特徴量を読み出す。すなわち、読み出し部１０３は、特徴点検出部１０１により検出された特徴点ｘ_Viに対応する登録顔の特徴点の特徴量Ｊ_j ^M（ｘ_Vi）を、登録部１１１から読み出し、類似度ベクトル演算部１０４に出力する。

ステップＳ３６において、類似度ベクトル演算部１０４は、類似度ベクトルを求める。具体的には、次式に基づいて、同じ特徴位置ｘ_Viにおける類似度ｄ（ｘ_Vi）が、入力顔の特徴量Ｊ_i ^I（ｘ_Vi）と登録画像の特徴量Ｊ_j ^M（ｘ_Vi）を用いて演算される。この類似度ｄ（ｘ_Vi）から、その集合である類似度ベクトルｄ｛ｄ（ｘ_Vi）｝（ｉ＝１,・・・，Ｍ）が求められる。

以上のステップＳ３５，Ｓ３６の処理は、予め登録されているすべての登録顔について行われる。これにより、入力された顔画像とすべての登録顔画像との比較が行われることになる。

ステップＳ３７において、クラス判定部１０５は、サポートベクタマシン（SVM）によりクラスを判定する。サポートベクタマシンは、類似度ベクトルの境界面（式（１０）のｆ（ｘ）の値を、例えば、＋１または−１と判定する境界面（値が０である位置の面））からの距離を算出し、intra-personal classに属するか、extra-personal classに属するかの判断を行う。intra-personal classに属すると判断される類似度ベクトルが存在しない場合には、未登録の人物の顔が入力されたと判断される。クラス判定部１０５を構成する１つのサポートベクタマシンは、多くの顔画像を学習することで、新たに入力された顔画像が登録されている（学習済みの）顔画像と一致するのか（intra-personal classに属するのか）、または、一致しないのか（extra-personal classに属するのか）を判定する機能を有する。

ステップＳ３７における処理が模式的に図４に示されている。すなわち、図４に示されるように、サポートベクタマシンは、ガボアフィルタにより検出された入力画像Ｉ^I（ｘ_V）の特徴点の特徴量Ｊ^I（ｘ_Vj）と、登録画像Ｉ^Mk（ｘ_V）の特徴点の特徴量Ｊ^M（ｘ_Vi）の類似度ｄ（ｘ_Vi）が演算し、その類似度の集合である類似度ベクトルを判断することでクラスを判定する。

そして、ステップＳ３８において、クラス判定部１０５は、入力された顔画像は、intra-personal classかを判定する。入力された顔画像がintra-personal classであると判定された場合（入力された顔画像が登録部１１１に登録されている画像であると判定された場合）、ステップＳ３９において、重複判定部１０６は、複数の登録顔のintra-personal classと判定されたかを判定する。すなわち、入力された顔画像が、登録部１１１に登録されている２以上の登録顔と一致するとクラス判定部１０５により判定されたか否かを判定する。複数の登録顔のintra-personal classと判定された場合には、ステップＳ４０において、選択部１０７は、境界面からの距離が最も大きい類似度ベクトルに対応する登録顔を選択する。

ステップＳ３９において、複数の登録顔のintra-personal classであると判定されていないと判定された場合（入力された顔画像が、登録されている１つの登録顔と一致すると判定された場合）、ステップＳ４０の選択処理は必要がないのでスキップされる。そして、ステップＳ４１において、出力部１０８は、登録部１１１に登録されている顔画像データを出力したり、表示部１０９などに表示させる。

ステップＳ３８において、入力された顔画像がintra-personal classではないと判定された場合（extra-personal classであると判定された場合）、ステップＳ４２において、表示部１０９は、メッセージを表示する。例えば、「入力された人物は、登録されていません」のようなメッセージが表示部１０９により表示される。管理者は、このメッセージをみて、入力された顔画像を登録するか否かを判断し、登録する場合にはその旨を指示する。このとき、必要に応じて、自分自身が登録権限を有する管理者であることを表す情報として、例えば、パスワードを呈示する。そこで、指示判定部１１０は、ステップＳ４３において、登録が指示されたか否かを判定し、入力された顔画像の登録が指示されたと判定された場合、ステップＳ４４において、指示判定部１１０は、さらに、その指示が管理者からの指示であるか否かを判定する。入力されたパスワードが正しいパスワードである場合、管理者からの指示であると判定される。この場合、ステップＳ４５において、登録部１１１は、特徴量演算部１０２により演算された特徴量を登録する処理を実行する。その後、処理はステップＳ４１に進み、出力部１０８は、登録部１１１にいま登録された顔画像データを出力する処理を実行する。

ステップＳ４３において、登録が指示されていないと判定され場合、またはステップＳ４４において、登録が指示されたが管理者からの指示ではないと判定された場合（例えば、入力されたパスワードが正しくない場合）、ステップＳ４５の登録処理はスキップされ、処理は終了される。

クラス判定部１０５において用いられるサポートベクタマシンは、例えば、図５に示される画像処理装置により学習生成される。

この画像処理装置１５１は、取得部１６１、ラベル付け部１６２、顔抽出部１６３、顔画像アライメント部１６４、特徴点検出部１６５、特徴量演算部１６６、類似度ベクトル演算部１６７、およびサポートベクタ演算部１６８により構成される。

取得部１６１は、学習用の画像データを取得する。この学習用の画像データとしては、対となるintra-personal classに属する学習用の画像データと、対となるextra-personal classに属する学習用の画像データとから構成される。ここで、対となる画像とは、人の顔の画像であって、照明条件、表情、人種、年齢、性別などを変化させる前の画像と変化させた後の画像との対の画像を意味する。intra-personal classに属する顔画像の場合、対となる画像は、同一人物の画像であるから、照明条件、表情、年齢、などを変化させることが可能であるが、人種、性別などは、変化させることができない。したがって、intra-personal classに属する顔画像としては、照明条件、表情、または年齢といった条件が変化されたものが用意される。これに対してextra-personal classに属する顔画像は、異なる人物と判定される顔画像であるから、対となる顔画像は、異なる人物の顔画像である。この場合には、一方の顔画像に対して他方の顔画像は、照明条件、表情、人種、年齢、性別といった条件を変更した顔画像とすることができる。

ラベル付け部１６２は、取得部１６１により取得されたintra-personal classに属する顔画像と、extra-personal classに属する顔画像に対してラベル付けを行う。例えば、intra-personal classに属する顔画像に対しては＋１のラベルが、extra-personal classに属する顔画像に対しては−１が、それぞれラベル付けされる。顔抽出部１６３は、ラベル付けされた画像の中から、顔画像の部分を検出し、さらに顔画像の中から、目、口、鼻といった特徴を検出する。この顔抽出部１６３の構成と機能は、図１における顔抽出部１１と同様である。

顔画像アライメント部１６４は、顔抽出部１６３により検出された画像の、目、口、鼻といった特徴の位置を、基準の位置にアライメントする処理を行う。この顔画像アライメント部１６４の構成と機能は、図１における顔画像アライメント部５１と同様である。

特徴点検出部１６５は、顔画像アライメント部１６４により目、口、鼻といった特徴がアライメントされた画像の特徴点を検出する。いかなる点を特徴点とするかは任意である。特徴量演算部１６６は、特徴点検出部１６５により検出された特徴点の特徴量を演算する。この特徴量演算部１６６により演算される特徴量も任意である。これらの特徴点検出部１６５と特徴量演算部１６６の構成と機能は、図２の特徴点検出部１０１と特徴量演算部１０２と同様であり、検出される特徴点と特徴量は対応する。

類似度ベクトル演算部１６７は、特徴量演算部１６６により演算された対となる特徴量の類似度ベクトルを演算する。この類似度ベクトル演算部１６７の構成と機能も、図２の類似度ベクトル演算部１０４と同様である。サポートベクタ演算部１６８は、類似度ベクトル演算部１６７により演算された類似度ベクトルと、ラベル付け部１６２により付加されたラベルとに基づいて、２つのクラス（intra-personal classとextra-personal class）を分離するサポートベクタを演算する。

次に、図６のフローチャートを参照して、図５の画像処理装置１５１の学習処理について説明する。

ステップＳ６１において、取得部１６１は、対となるintra-personal classに属する学習用の画像データと、対となるextra-personal classに属する学習用の画像データを取得する。この学習用の画像データは、必ずしも識別対象とする（登録対象とする）人の顔の画像データである必要はない。上述したように、その登録は、図３のステップＳ４５において行われるからである。したがって、画像処理装置１が実際に利用される場所、利用者などに関わらず、画像処理装置１のクラス判定部１０５において用いるサポートベクタマシンを共通化することができ、その共通化したサポートベクタマシンを容易に生成することが可能となる。

ステップＳ６２において、ラベル付け部１６２はラベル付けを行う。具体的には、ラベル付け部１６２は、intra-personal classに属する学習用の画像データとして入力された画像データに対しては＋１を、extra-personal classに属する学習用の画像データとして入力された画像データに対しては−１を、それぞれラベル付けする。顔抽出部１６３は、ステップＳ６３において、顔画像の特徴を検出する。そして、ステップＳ６４において、顔画像アライメント部１６４は、ステップＳ６３の処理で検出された顔特徴をアライメントする処理を実行する。

すなわち、ステップＳ６３，Ｓ６５の処理により、図１の顔抽出部１１、および顔認識部１２の顔画像アライメント部５１における場合と同様に、入力された画像データの中から、顔の画像部分が検出され、検出された顔の中から、目、口、鼻といった顔特徴がさらに検出され、検出された目、口、鼻といった特徴が、所定の基準位置にアライメントされる。

ステップＳ６５において、特徴点検出部１６５は、顔画像データの特徴点を検出する。ステップＳ６６において、特徴量演算部１６６は、ガボアフィルタにより特徴点の特徴量を求める。これらの処理は、図２の特徴点検出部１０１と特徴量演算部１０２により図３のステップＳ３３とステップＳ３４で実行される処理と同様の処理である。すなわち、これにより、学習用の対となるintra-personal classに属する画像データの特徴点の特徴量が求められるとともに、学習用の対となるextra-personal classに属する画像データの特徴点の特徴量が求められる。

ステップＳ６７において、類似度ベクトル演算部１６７は、類似度ベクトルを演算する。具体的には、上述した式（２９）における入力顔の特徴量Ｊ_j ^I（ｘ_Vi）に代えて、対となるintra-personal classに属する顔画像の一方の特徴量が代入され、同様に、Ｊ_j ^M（ｘ_Vi）の代わりに、intra-personal classに属する学習用の画像データの他方の対となる画像データの特徴量が代入される。そして、両者の類似度が、式（２９）に基づいて演算される。さらに、類似度ｄ（ｘ_Vi）の集合としての類似度ベクトルｄ｛ｄ（ｘ_Vi）｝（ｉ＝１,・・・，Ｍ）が演算される。対となるextra-personal classに属する学習用の画像データについても同様に、類似度ベクトルが演算される。

ステップＳ６８において、サポートベクタ演算部１６８は、ラベルと類似度ベクトルをサポートベクタマシンに入力し、２つのクラスを分離するサポートベクタを演算する。具体的には、上述した式（１０）におけるｘに代えて、ステップＳ６７で演算された類似度ベクトルが代入され、式（１１）に示されるｙにステップＳ６２の処理で付けられたラベルが代入される。それにより、サポートベクタとしての式（１０）におけるｆ（ｘ）が演算される。

以上のようにして、生成されたサポートベクタマシンが図２のクラス判定部１０５のサポートベクタマシンとして用いられる。

以上のように、本発明においては、intra-personal classとextra-personal classを識別するサポートベクタマシンは１個しか必要としない。サポートベクタマシンの学習に必要な教師データには、登録される顔画像が含まれる必要がないため、サポートベクタマシンの再学習の必要がない。登録の際には、登録用の顔画像から生成される特徴量を保存するだけでよいため、リアルタイムに顔画像登録処理が可能であり、保存すべきデータ量もほとんど増加しない。また、クラス判定部にサポートベクタマシンを用いているため、非常に汎化能力が高く、さまざまの条件の変化の元でも精度の高い識別が可能となる。

また、サポートベクタマシンに入力するデータとして、２枚の顔画像の差分画像ではなく、２枚の顔画像のガボアジェットの類似度ベクトルを用いているため、特徴点間のある程度の位置のずれや変形に強くなる。これにより、２枚の顔画像間の顔の変形や傾きの変化に対してロバストになり、ロボットによるさまざまな環境下での顔識別性能を向上させることが可能となる。また、本発明は、顔の識別だけでなく、さまざまなパターンの２クラス識別（一致するか、または一致しないかの識別）に対応することが可能であり、その識別対象のパターンの変形や傾きに対してロバストな識別システムを構築することが可能である。

したがって、リアルタイムに顔の登録、追加学習が可能で、さまざまな環境下での顔の変形や傾きの変化に対してロバストな顔識別システムを構築することが可能となる。

上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。この場合、例えば、画像処理装置は、図７に示されるようなパーソナルコンピュータにより構成される。

図７において、CPU（Central Processing Unit）２２１は、ROM（Read Only Memory）２２２に記憶されているプログラム、または記憶部２２８からRAM（Random Access Memory）２２３にロードされたプログラムに従って各種の処理を実行する。RAM２２３にはまた、CPU２２１が各種の処理を実行する上において必要なデータなども適宜記憶される。

CPU２２１、ROM２２２、およびRAM２２３は、バス２２４を介して相互に接続されている。このバス２２４にはまた、入出力インタフェース２２５も接続されている。

入出力インタフェース２２５には、キーボード、マウスなどよりなる入力部２２６、CRT(Cathode Ray Tube)、LCD(Liquid Crystal display)などよりなるディスプレイ、並びにスピーカなどよりなる出力部２２７、ハードディスクなどより構成される記憶部２２８、モデムなどより構成される通信部２２９が接続されている。通信部２２９は、インターネットを含むネットワークを介しての通信処理を行う。

入出力インタフェース２２５にはまた、必要に応じてドライブ２３０が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア２３１が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部２２８にインストールされる。

一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。

この記録媒体は、図７に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク（フロッピディスクを含む）、光ディスク（CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む）、光磁気ディスク（MD（Mini-Disk）を含む）、もしくは半導体メモリなどよりなるリムーバブルメディア２３１により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM２２２や、記憶部２２８に含まれるハードディスクなどで構成される。

なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。

本発明は、人の顔を識別するロボットに適用することが可能である。

本発明を適用した画像処理装置の構成例を示すブロック図である。図１のクラス判断部の機能的構成例を示すブロック図である。図２のクラス判断部のクラス判断処理を説明するフローチャートである。クラス判定処理を説明する図である。サポートベクタマシンを学習する画像処理装置の機能的構成例を示すブロック図である。図５の画像処理装置の学習処理を説明するフローチャートである。パーソナルコンピュータの構成例を示すブロック図である。

符号の説明

１画像処理装置，１１顔抽出部，１２顔認識部，５１顔画像アライメント部，５２クラス判断部，１０１特徴点検出部，１０２特徴量演算部，１０３読み出し部，１０４類似度ベクトル演算部，１０５クラス判定部，１０６重複判定部，１０７選択部，１０８出力部，１０９表示部，１１０指示判定部，１１１登録部，１５１画像処理装置，１６１取得部，１６２ラベル付け部，１６３顔抽出部，１６４顔画像アライメント部，１６５特徴点検出部，１６６特徴量演算部，１６７類似度ベクトル演算部，１６８サポートベクタ演算部

Claims

入力された画像データの画像の特徴点を検出する特徴点検出手段と、
前記特徴点の局所的な特徴量をガボアフィルタにより検出する特徴量検出手段と、
検出された特徴量と、予め登録されている画像の特徴量との類似度を演算する演算手段と、
入力された前記画像データの画像のクラスを前記類似度に基づいてサポートベクタマシンにより判定する判定手段と
を備えることを特徴とする画像処理装置。
入力された前記画像データの画像が、予め登録されている画像に属しないクラスであると判定された場合、前記特徴量を登録する登録手段をさらに備える
ことを特徴とする請求項１に記載の画像処理装置。
入力された画像データの画像の特徴点を検出する特徴点検出ステップと、
前記特徴点の局所的な特徴量をガボアフィルタにより検出する特徴量検出ステップと、
検出された特徴量と、予め登録されている画像の特徴量との類似度を演算する演算ステップと、
入力された前記画像データの画像のクラスを前記類似度に基づいてサポートベクタマシンにより判定する判定ステップと
を含むことを特徴とする画像処理方法。
入力された画像データの画像の特徴点を検出する特徴点検出ステップと、
前記特徴点の局所的な特徴量をガボアフィルタにより検出する特徴量検出ステップと、
検出された特徴量と、予め登録されている画像の特徴量との類似度を演算する演算ステップと、
入力された前記画像データの画像のクラスを前記類似度に基づいてサポートベクタマシンにより判定する判定ステップと
を含むことを特徴とするコンピュータが読み取り可能なプログラムが記録されている記録媒体。
入力された画像データの画像の特徴点を検出する特徴点検出ステップと、
前記特徴点の局所的な特徴量をガボアフィルタにより検出する特徴量検出ステップと、
検出された特徴量と、予め登録されている画像の特徴量との類似度を演算する演算ステップと、
入力された前記画像データの画像のクラスを前記類似度に基づいてサポートベクタマシンにより判定する判定ステップと
をコンピュータに実行させることを特徴とするプログラム。
対となるイントラパーソナルクラスに属する学習用の第１の画像データと、対となるエクストラパーソナルクラスに属する学習用の第２の画像データを取得する取得手段と、
前記第１の画像データと前記第２の画像データにラベルを対応付けるラベル付け手段と、
前記第１の画像データと前記第２の画像データの画像の特徴点を検出する特徴点検出手段と、
前記特徴点の特徴量をガボアフィルタにより検出する特徴量検出手段と、
対となる前記第１の画像データの類似度と、対となる前記第２の画像データの類似度を演算する類似度演算手段と、
前記ラベルと前記類似度に基づいて、サポートベクタを演算するサポートベクタ演算手段と
を備えることを特徴とする画像処理装置。
対となるイントラパーソナルクラスに属する学習用の第１の画像データと、対となるエクストラパーソナルクラスに属する学習用の第２の画像データを取得する取得ステップと、
前記第１の画像データと前記第２の画像データにラベルを対応付けるラベル付けステップと、
前記第１の画像データと前記第２の画像データの画像の特徴点を検出する特徴点検出ステップと、
前記特徴点の特徴量をガボアフィルタにより検出する特徴量検出ステップと、
対となる前記第１の画像データの類似度と、対となる前記第２の画像データの類似度を演算する類似度演算ステップと、
前記ラベルと前記類似度に基づいて、サポートベクタを演算するサポートベクタ演算ステップと
を含むことを特徴とする画像処理方法。
対となるイントラパーソナルクラスに属する学習用の第１の画像データと、対となるエクストラパーソナルクラスに属する学習用の第２の画像データを取得する取得ステップと、
前記第１の画像データと前記第２の画像データにラベルを対応付けるラベル付けステップと、
前記第１の画像データと前記第２の画像データの画像の特徴点を検出する特徴点検出ステップと、
前記特徴点の特徴量をガボアフィルタにより検出する特徴量検出ステップと、
対となる前記第１の画像データの類似度と、対となる前記第２の画像データの類似度を演算する類似度演算ステップと、
前記ラベルと前記類似度に基づいて、サポートベクタを演算するサポートベクタ演算ステップと
を含むことを特徴とするコンピュータが読み取り可能なプログラムが記録されている記録媒体。
対となるイントラパーソナルクラスに属する学習用の第１の画像データと、対となるエクストラパーソナルクラスに属する学習用の第２の画像データを取得する取得ステップと、
前記第１の画像データと前記第２の画像データにラベルを対応付けるラベル付けステップと、
前記第１の画像データと前記第２の画像データの画像の特徴点を検出する特徴点検出ステップと、
前記特徴点の特徴量をガボアフィルタにより検出する特徴量検出ステップと、
対となる前記第１の画像データの類似度と、対となる前記第２の画像データの類似度を演算する類似度演算ステップと、
前記ラベルと前記類似度に基づいて、サポートベクタを演算するサポートベクタ演算ステップと
をコンピュータに実行させることを特徴とするプログラム。