JP2014119879A

JP2014119879A - 顔表情評価結果平滑化装置および顔表情評価結果平滑化プログラム

Info

Publication number: JP2014119879A
Application number: JP2012273587A
Authority: JP
Inventors: Makoto Okuda; 誠奥田
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2012-12-14
Filing date: 2012-12-14
Publication date: 2014-06-30

Abstract

【課題】一連の顔画像を含む映像データから顔表情評価結果を安定して得る。
【解決手段】顔表情評価結果平滑化装置である平滑化処理部８０は、顔画像に基づき顔表情種別ごとに得られた複数の顔表情強度値を、フレームごとに取り込む顔表情強度値取得部８１と、顔表情強度値取得部８１が取り込んだ複数フレーム分の顔表情強度値を参照し、顔表情種別ごとの複数フレームの顔表情強度値に基づく合計値に基づいて、複数フレームに対応する代表顔表情強度値を計算する顔表情強度値平滑化処理部８２と、を備える。
【選択図】図２

Description

本発明は、顔表情評価結果平滑化装置および顔表情評価結果平滑化プログラムに関する。

人物の顔画像が含まれる画像データを解析して、顔画像における顔表情を６種類（Ａｎｇｅｒ；怒り、Ｄｉｓｇｕｓｔ；嫌悪、Ｆｅａｒ；恐れ、Ｈａｐｐｉｎｅｓｓ；幸せ、Ｓａｄｎｅｓｓ；悲しみ、Ｓｕｒｐｒｉｓｅ；驚き）に分類し、その顔表情の強度を計算する技術が知られている（例えば、非特許文献１参照）。非特許文献１に記載された技術を適用した情報処理装置は、顔表情が異なる複数の顔画像について、顔表情の強度の順序関係が整合するよう強度を求めるとともに、各顔画像における顔表情を上記６種類の顔表情に分類ことができる。

Peng Yang, Qingshan Liu, Dimitris N. Metaxas, "RankBoost with l1 regularization for Facial Expression Recognition and Intensity Estimation", IEEE International Conference on Computer Vision (ICCV), pp. 1018-1025, 2009

しかしながら、上記の情報処理装置に映像データを供給し、この映像データにおける各顔画像の評価処理を実行させた場合に、一連の顔画像それぞれにおける顔表情の中に、周囲と異なる種類の顔表情が突発的に現出することがある。フレーム単位で顔表情が変化することは通常起こり難い現象であり、この突発的に現出した顔表情はエラーである可能性が高い。

本発明は、上記の問題を解決するためになされたものであり、一連の顔画像を含む映像データから顔表情評価結果を安定して得る、顔表情評価結果平滑化装置および顔表情評価結果平滑化プログラムを提供することを目的とする。

［１］上記の課題を解決するため、本発明の一態様である顔表情評価結果平滑化装置は、顔画像に基づき顔表情種別ごとに得られた複数の顔表情強度値を、フレームごとに取り込む顔表情強度値取得部と、前記顔表情強度値取得部が取り込んだ複数フレーム分の顔表情強度値を参照し、前記顔表情種別ごとの前記複数フレームの顔表情強度値に基づく合計値に基づいて、前記複数フレームに対応する代表顔表情強度値を計算する顔表情強度値平滑化処理部と、を備えることを特徴とする。

［２］上記［１］記載の顔表情評価結果平滑化装置において、前記合計値は、前記顔表情種別ごとの、前記複数フレーム分の顔表情強度値の合計値である、ことを特徴とする。
［３］上記［１］記載の顔表情評価結果平滑化装置において、前記合計値は、前記複数フレームのそれぞれにおける最大の顔表情強度値の個数を顔表情種別ごとに計数して得た合計値である、ことを特徴とする。
［４］上記［２］または［３］いずれか記載の顔表情評価結果平滑化装置において、前記顔表情強度値平滑化処理部は、前記複数フレーム内における各フレームの位置に応じた重み付けをして前記合計値を計算する、ことを特徴とする。
［５］上記［１］〜［４］いずれか一項記載の顔表情評価結果平滑化装置において、前記顔表情強度値平滑化処理部が求めた、前記顔表情種別ごとの合計値のうち最大の合計値に対応する顔表情種別を、前記複数フレームに対応する顔表情の分類結果として選出する顔表情種別平滑化処理部、をさらに備えることを特徴とする。
［６］上記［１］〜［５］いずれか一項記載の顔表情評価結果平滑化装置において、前記顔表情強度値平滑化処理部は、前記複数フレームよりも少ないフレーム数をシフト量とし、前記複数フレームを前記シフト量だけ時間方向にずらす、ことを特徴とする。

［７］上記の課題を解決するため、本発明の一態様である顔表情評価結果平滑化プログラムは、コンピュータを、顔画像に基づき顔表情種別ごとに得られた複数の顔表情強度値を、フレームごとに取り込む顔表情強度値取得部と、前記顔表情強度値取得部が取り込んだ複数フレーム分の顔表情強度値を参照し、前記顔表情種別ごとの前記複数フレームの顔表情強度値に基づく合計値に基づいて、前記複数フレームに対応する代表顔表情強度値を計算する顔表情強度値平滑化処理部と、として機能させる。

本発明によれば、一連の顔画像を含む映像データから顔表情評価結果を安定して得ることができる。

本発明の第１実施形態である顔表情評価結果平滑化装置を適用した顔表情解析装置の機能構成を示すブロック図である。同実施形態において、平滑化処理部の機能構成を示すブロック図である。同実施形態において、顔表情解析装置が学習モードに設定されて学習処理を実行する際に用いる、顔画像データベースのデータ構造の一部分を概念的に示す図である。同実施形態において、顔表情解析装置が学習モードに設定されて学習処理を実行する際に用いる顔表情強度教師値を、顔画像データに対応付けて示す図である。同実施形態において、画像データと、この画像データから抽出された顔領域データと、この顔領域データを正規化して得られた正規化顔領域データとを模式的に示す図である。同実施形態において、解析領域決定部が正規化顔領域データから決定した解析領域を、視覚的に分かり易く線描画した図である。同実施形態において、画像特徴量計算部によって生成された、上部解析領域における特徴量のヒストグラムと、下部解析領域における特徴量のヒストグラムと、これら二つのヒストグラムが連結された、解析領域全体における特徴量のヒストグラムとを模式的に示した図である。同実施形態において、回帰分析部が実行する回帰分析処理における一つの回帰モデルを模式的に示した図である。同実施形態において、顔表情解析装置が実行する学習処理の手順を示すフローチャートである。同実施形態において、顔表情解析装置が実行する１フレーム分の顔表情評価処理の手順を示すフローチャートである。同実施形態において、顔表情解析モードに設定されている顔表情解析装置が評価映像データを取り込んで顔表情評価処理を繰り返し実行することによって顔表情評価部で得られる、一連の顔表情強度値セットの一例を示す図である。同実施形態において、平滑化処理部が実行する一区間分の顔表情評価結果平滑化処理の手順を示すフローチャートである。同実施形態において、平滑化処理部が顔表情評価結果平滑化処理を行う前後それぞれの顔表情評価結果を模式的に示す図である。本発明の第４実施形態において、平滑化処理部における区間の移動を説明するための図である。

以下、本発明を実施するための形態について、図面を参照して詳細に説明する。
［第１の実施の形態］
本発明の第１実施形態である顔表情評価結果平滑化装置を適用した顔表情解析装置は、学習処理および顔表情解析処理を、切替制御により切り替えて実行する。学習処理には、事前処理が含まれる。また、顔表情解析処理は、顔表情評価処理および顔表情評価結果平滑化処理を含む。学習処理では、顔表情解析装置は、顔表情種別ごとに、顔表情の度合（強度）がそれぞれ異なる顔画像データ列における各顔画像データの顔領域の画像特徴量と、評価者の主観評価による顔表情の度合を示す顔表情強度教師値との対応関係を回帰分析することにより、顔表情種別ごとの回帰モデルにおけるパラメータ値を求める。また、１フレームあたりの顔表情評価処理では、顔表情解析装置は、顔表情種別ごとに学習した回帰モデルに、評価用の顔画像データ（評価顔画像データ）における顔領域の画像特徴量を適用することによって、顔表情種別ごとに顔表情強度値を計算して顔表情強度値セットを生成する。ここで、顔表情強度値セットとは、１フレーム分の、複数の顔表情種別それぞれに対応する顔表情強度値のまとまりである。また、複数フレーム分の顔表情強度値セットを含む一区間あたりの顔表情評価結果平滑化処理では、顔表情解析装置は、それら複数フレーム分の顔表情強度値セットに基づいて、顔表情強度値および顔表情種別を平滑化する。

図１は、本発明の第１実施形態である顔表情評価結果平滑化装置を適用した顔表情解析装置の機能構成を示すブロック図である。同図に示すように、顔表情解析装置１は、画像データ取得部１０と、顔表情強度教師値取得部２０と、顔領域抽出部３０と、画像特徴量計算部４０と、回帰分析部５０と、回帰モデル記憶部６０と、顔表情評価部７０と、平滑化処理部（顔表情評価結果平滑化装置）８０と、モード切替部９０とを備える。

モード切替部９０は、例えば、顔表情解析装置１が制御プログラムを実行することにより実現される切替制御によって、顔表情解析装置１を学習モードと顔表情解析モードとの間で切り替える。学習モードは、顔表情解析装置１が事前処理および学習処理を実行する動作モードである。また、顔表情解析モードは、顔表情解析装置１が顔表情解析処理を実行する動作モードである。なお、モード切替部９０は、例えば、操作者による顔表情解析装置１の切替操作にしたがって、学習モードと顔表情解析モードとを切替えてもよい。

モード切替部９０によって顔表情解析装置１を学習モードに設定している場合、顔表情解析装置１は、画像データ取得部１０と、顔表情強度教師値取得部２０と、顔領域抽出部３０と、画像特徴量計算部４０と、回帰分析部５０と、回帰モデル記憶部６０とを機能させる。また、モード切替部９０によって顔表情解析装置１を顔表情解析モードに設定している場合、顔表情解析装置１は、画像データ取得部１０と、顔領域抽出部３０と、画像特徴量計算部４０と、回帰モデル記憶部６０と、顔表情評価部７０と、平滑化処理部８０とを機能させる。

画像データ取得部１０は、図示しない外部装置が供給する画像データを取り込む。具体的に、顔表情解析装置１が学習モードに設定されている場合、画像データ取得部１０は、例えば、顔画像データベースから複数の顔画像データを取り込む。顔画像データベースは、例えば、顔表情の種類別に、複数人の顔表情の度合がそれぞれ異なる顔画像データ列の集合を格納したデータベースである。また、顔表情解析装置１が顔表情解析モードに設定されている場合、画像データ取得部１０は、例えば、映像撮影装置または映像記録装置が供給する、顔表情解析のための評価映像データを取り込む。この評価映像データは、時系列のフレームに対応する複数の評価顔画像データを含んでいる。

顔表情解析装置１が学習モードに設定されている場合、画像データ取得部１０は、取り込んだ顔画像データを顔領域抽出部３０に供給する。また、顔表情解析装置１が顔表情解析モードに設定されている場合、画像データ取得部１０は、取り込んだ評価映像データから、順次またはあらかじめ決定された所定フレーム数おきに、顔画像データを顔領域抽出部３０に供給する。

顔表情解析装置１が学習モードに設定されている場合、顔表情強度教師値取得部２０は、図示しない外部装置が供給する顔表情強度教師値を取り込み、この顔表情強度教師値を回帰分析部５０に供給する。外部装置は、例えば、前記の顔画像データベースまたはコンピュータ装置等の情報処理装置である。顔表情強度教師値は、顔画像データベースに格納された、顔表情種別ごとの顔画像データ列について、各顔画像データにおける顔表情の度合を、評価者の主観評価にしたがって表した値である。一例として、顔表情強度教師値を、下限値（例えば“０（ゼロ）”）から上限値（例えば“１００”）までの整数で表す。これにおいて、顔表情強度教師値が小さいほど顔表情の度合が小さく、顔表情強度教師値が大きいほど顔表情の度合が大きい。なお、顔表情の度合を評価する評価者は、一人でもよいし、複数でもよい。評価者が複数である場合、各評価者によって付された値の平均値を顔表情強度教師値としてもよい。

顔表情解析装置１が学習モードに設定されている場合、画像データ取得部１０が取り込む顔画像データと、この顔画像データに対応して顔表情強度教師値取得部２０が取り込む顔表情強度教師値との対データは、顔表情解析装置１における教師データである。

顔領域抽出部３０は、画像データ取得部１０が供給する画像データ（顔画像データまたは評価顔画像データ）を取り込み、この画像データから顔の解析領域を抽出する。具体的に、顔領域抽出部３０は、顔領域検出部３１と、解析領域決定部３２とを備える。

顔領域検出部３１は、画像データ取得部１０が供給する画像データを取り込み、この画像データについて顔検出処理を実行することによってその画像データから顔領域を検出する。この顔領域のデータ（顔領域データ）は、例えば矩形の画像データである。

顔領域検出部３１が実行する顔検出処理のアルゴリズムとして、公知の顔検出アルゴリズム（例えば、ＡｄａＢｏｏｓｔ）を適用できる。なお、公知の顔検出アルゴリズムについては、例えば、PAUL VIOLA, MICHAEL J. JONES, "Robust Real-Time Face Detection", International Journal of Computer Vision, 2004, Vol. 57, No. 2, pp. 137-154に、詳細が開示されている。

解析領域決定部３２は、顔領域検出部３１が検出した顔領域データを所定サイズに正規化する。そして、解析領域決定部３２は、正規化した顔領域データ（正規化顔領域データ）から解析領域を抽出する。具体的に、解析領域決定部３２は、顔領域データを、例えば水平方向１２８画素×垂直方向１２８画素の正規化顔領域データに正規化する。すなわち、解析領域決定部３２は、顔領域データを所定サイズの矩形画像に拡大または縮小する画像処理を実行することによって正規化顔領域データを生成する。つまり、画像データに含まれる顔の大きさは画像データによって様々であるため、解析領域決定部３２は、顔領域を拡大または縮小させて、全ての画像データにおける顔領域の解像度を同程度にする。これにより、解像度が異なる顔領域データにおける情報量を、略均等にすることができる。

解析領域決定部３２は、正規化顔領域データから、画像特徴量を計算する領域である解析領域を決定し、この解析領域のデータ（解析領域データ）を抽出する。解析領域は、例えば、正規化顔領域内の中心部の円（楕円または真円）領域である。そして、解析領域決定部３２は、例えば、解析領域の中心を通る水平方向の直線で当該解析領域を二分し、その上部の領域を上部解析領域（第１の解析部分領域）、下部の領域を下部解析領域（第２の解析部分領域）として決定する。言い換えると、解析領域決定部３２は、正規化顔領域に内接する円形または楕円形よりも小さな円形または楕円形の解析領域を上下（縦）方向に二分して上部解析領域および下部解析領域を決定する。

画像特徴量計算部４０は、顔領域抽出部３０が抽出した解析領域データの画像特徴量を計算する。

具体的に、顔表情解析装置１が学習モードに設定されて実行する事前処理において、画像特徴量計算部４０は、解析領域決定部３２が決定した解析領域における上部解析領域について、例えば、ＳｃａｌｅＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍａｔｉｏｎ（ＳＩＦＴ）特徴量またはＳｐｅｅｄｅｄＵｐＲｏｂｕｓｔＦｅａｔｕｒｅｓ（ＳＵＲＦ）特徴量等の局所特徴量を計算する。画像特徴量計算部４０は、全ての顔画像データについての局所特徴量についてクラスタリング処理を実行することによってクラスタを生成し、このクラスタを内蔵する記憶部に記憶させる。クラスタリング処理として、例えば、Ｋ平均法を適用する。画像特徴量計算部４０は、下部解析領域についても上部解析領域と同様にクラスタを生成し、このクラスタを上記の記憶部に記憶させる。なお、画像特徴量計算部４０は、学習処理において用いる全ての顔画像データについての上部解析領域および下部解析領域それぞれに対するクラスタを、外部装置から取り込んで上記の記憶部に記憶させてもよい。

顔表情解析装置１が学習モードに設定されて実行する学習処理、または顔表情解析モードに設定されて実行する顔表情評価処理において、画像特徴量計算部４０は、解析領域決定部３２が決定した解析領域における上部解析領域からＳＩＦＴ特徴量、またはＳＵＲＦ特徴量等の局所特徴量を計算する。そして、画像特徴量計算部４０は、これら局所特徴量を、事前処理において記憶した上部解析領域に対するクラスタに分類し、各クラスタをビン、各クラスタの要素数を頻度とするヒストグラムであるＢａｇ−ｏｆ−Ｋｅｙｐｏｉｎｔｓを生成する。画像特徴量計算部４０は、下部解析領域についても上部解析領域と同様に、Ｂａｇ−ｏｆ−Ｋｅｙｐｏｉｎｔｓを生成する。

画像特徴量計算部４０は、上部解析領域および下部解析領域それぞれについてのＢａｇ−ｏｆ−Ｋｅｙｐｏｉｎｔｓを連結して解析領域全体のＢａｇ−ｏｆ−Ｋｅｙｐｏｉｎｔｓを生成する。具体的に、画像特徴量計算部４０は、例えば、上部解析領域に対する１７５次元のＢａｇ−ｏｆ−Ｋｅｙｐｏｉｎｔｓに、下部解析領域に対する１２５次元のＢａｇ−ｏｆ−Ｋｅｙｐｏｉｎｔｓを連結し、解析領域全体として３００次元のＢａｇ−ｏｆ−Ｋｅｙｐｏｉｎｔｓを生成する。

なお、Ｂａｇ−ｏｆ−Ｋｅｙｐｏｉｎｔｓについては、例えば、Gabriella Csurka, Christopher R. Dance, Lixin Fan, Jutta Willamowski, Gedric Bray, "Visual Categorization with Bag of Keypoints", Proc. of ECCV Workshop on Statistical Learning in Computer Vision, pp. 59-74, 2004に、詳細が開示されている。

顔表情解析装置１が学習モードに設定されている場合、画像特徴量計算部４０は、解析領域全体のＢａｇ−ｏｆ−Ｋｅｙｐｏｉｎｔｓを、画像特徴量として回帰分析部５０に供給する。また、顔表情解析装置１が顔表情解析モードに設定されている場合、画像特徴量計算部４０は、解析領域全体のＢａｇ−ｏｆ−Ｋｅｙｐｏｉｎｔｓを、画像特徴量として顔表情評価部７０に供給する。

顔表情解析装置１が学習モードに設定されている場合、回帰分析部５０は、画像特徴量計算部４０が供給する、顔画像データに対する画像特徴量を取り込み、また、顔表情強度教師値取得部２０が供給する、当該顔画像データに対する顔表情強度教師値を取り込む。

回帰分析部５０は、顔画像データに対する画像特徴量とその顔画像データに対応付けられた顔表情種別ごとの顔表情強度教師値とを用いて回帰分析処理を実行することにより、回帰モデルが有するパラメータ値を顔表情種別ごとに更新する。回帰モデルは、顔領域の画像特徴量から顔表情の度合を示す顔表情強度値を計算するための計算手段である。この回帰モデルは、可変のパラメータを有し、パラメータ値を更新可能とする数式モデルである。回帰分析部５０は、例えば、顔表情種別が“怒り”である場合の回帰分析において、顔表情種別が“怒り”である顔画像データについては顔表情強度教師値そのものを用いる一方、顔表情種別が“怒り”以外である顔画像データについては顔表情強度教師値を“０（ゼロ）”として用いて、回帰処理を実行する。そして、回帰分析部５０は、回帰処理によって得られるパラメータ値を、回帰モデル記憶部６０に記憶させる。なお、回帰分析部５０は、顔表情種別ごとに回帰分析処理を実行するのではなく、顔画像データに対する画像特徴量とその顔画像データに対応付けられた全顔表情における顔表情強度教師値とを用いて回帰分析処理を実行してもよい。

回帰モデル記憶部６０は、回帰分析部５０が供給するパラメータ値を、顔表情種別ごとに記憶する。回帰モデル記憶部６０は、例えば、磁気ハードディスク装置または半導体記憶装置により実現される。

顔表情解析装置１が顔表情解析モードに設定されている場合、顔表情評価部７０は、画像特徴量計算部４０が供給する、評価顔画像データに対する画像特徴量を取り込む。また、顔表情評価部７０は、回帰モデル記憶部６０から、顔表情種別ごとに回帰モデルのパラメータ値を読み込む。そして、顔表情評価部７０は、各回帰モデルに画像特徴量を適用して顔表情種別ごとに顔表情強度値を計算することによって顔表情強度値セットを生成し、この顔表情強度値セットを平滑化処理部８０に供給する。この顔表情強度値セットは、１フレーム分の評価顔画像データに対するデータセットである。具体的に、顔表情強度値セットは、各顔表情種別と顔表情強度値とを対応付けたものである。

顔表情解析装置１が顔表情解析モードに設定されている場合、平滑化処理部８０は、顔表情評価部７０が供給する顔表情強度値セットを時系列に取り込んで記憶する。そして、平滑化処理部８０は、複数フレーム分の顔表情強度値セットを含む区間ごとに、顔表情強度値を平滑化することによって、当該区間内における各フレームに対する平滑化後の顔表情強度値と顔表情の分類結果である顔表情種別情報を得る。

次に、平滑化処理部８０の詳細を説明する。
図２は、平滑化処理部８０の機能構成を示すブロック図である。同図に示すように、平滑化処理部８０は、顔表情強度値取得部８１と、顔表情強度値平滑化処理部８２と、顔表情種別平滑化処理部８３とを備える。

顔表情強度値取得部８１は、顔表情評価部７０が供給する顔表情強度値セットを時系列に取り込んで内蔵するバッファに記憶させる。このバッファは、複数フレームを含む区間における複数組の顔表情強度値セットを記憶可能な容量を有する、ＦＩＦＯ（ＦｉｒｓｔＩｎ／ＦｉｒｓｔＯｕｔ）形式の記憶部である。

顔表情強度値平滑化処理部８２は、顔表情強度値取得部８１がバッファに記憶させた複数フレーム分の顔表情強度値セットを含む区間ごとに、前記顔表情強度値取得部が取り込んだ複数フレーム分の顔表情強度値セットを参照し、顔表情種別ごとの複数フレームの顔表情強度値に基づく合計値に基づいて、複数フレームに対応する代表顔表情強度値を計算する。具体的に、顔表情強度値平滑化処理部８２は、顔表情強度値取得部８１がバッファに記憶させた複数フレーム分の顔表情強度値セットを含む区間ごとに、当該区間内の複数フレーム分の顔表情強度値セットについて、顔表情種別ごとに顔表情強度値の合計値を計算する。そして、顔表情強度値平滑化処理部８２は、顔表情種別ごとの顔表情強度値の合計値に基づいて、顔表情種別ごとの平均値を計算する。ここでの平均値は、単純平均値である。そして、顔表情強度値平滑化処理部８２は、顔表情種別ごとの顔表情強度値の平均値のうち最大の平均値、言い換えると、顔表情種別ごとの顔表情強度値の合計値のうち最大の合計値から求まる平均値を、当該区間に対応する平滑化後の代表顔表情強度値として出力する。

顔表情種別平滑化処理部８３は、顔表情強度値取得部８１がバッファに記憶させた複数フレーム分の顔表情強度値セットを含む区間ごとに、顔表情強度値平滑化処理部８２が求めた最大の平均値に対応する顔表情種別を、当該区間に対応する平滑化後の顔表情の分類結果として選出する。そして、顔表情種別平滑化処理部８３は、その顔表情の分類結果を示す顔表情種別情報を生成し、この顔表情種別情報を出力する。

図３は、顔表情解析装置１が学習モードに設定されて学習処理を実行する際に用いる、顔画像データベースのデータ構造の一部分を概念的に示す図である。同図に示すように、顔画像データベースは、顔表情種別ごとに、各人物（被写体）のニュートラル顔表情からピーク顔表情まで顔表情の度合がそれぞれ異なる顔画像データ列の集合に、当該顔表情種別を示すラベルを対応付けて構成した顔画像データ群を格納している。顔表情種別は、例えば、「怒り」、「嫌悪」、「恐れ」、「幸せ」、「悲しみ」、および「驚き」の６種類である。ニュートラル顔表情は、人物の中立的な顔表情であり、例えば、人物の無表情な顔つきから表情の種類を判別困難な程度の顔つきまでを示す表情である。つまり、ニュートラル顔表情には、顔表情の幅がある。ピーク顔表情は、人物の感情を豊かに表現した顔表情であり、例えば、怒り、嫌悪、恐れ、幸せ、悲しみ、驚き等の感情が強く表現された顔つきを示す。

顔画像データベースとして、例えば、Patrick Lucey, Jeffrey F. Cohn, Takeo Kanade, Jason Saragih, Zara Ambadar, "The Extended Cohn-Kanade Dataset (CK+): A complete dataset for action unit and emotion-specified expression", the Third IEEE Workshop on CVPR for Human Communicative Behavior Analysis, pp. 94-101, 2010に記載された、Cohn-Kanade Facial Expression Databaseを適用できる。

図４は、顔表情解析装置１が学習モードに設定されて学習処理を実行する際に用いる顔表情強度教師値を、顔画像データに対応付けて示す図である。同図に示すように、顔表情強度教師値は、顔画像データ群における顔表情種別ごとの各被写体の顔画像データ列それぞれについて、各顔画像データの顔表情の度合を、評価者による主観評価にしたがって下限値“０（ゼロ）”から上限値“１００”までの整数で表される。

図４では、顔表情種別が“幸せ”である第１の被写体の顔画像データ列について、ニュートラル顔表情に対応する顔表情強度教師値が“０（ゼロ）”、顔表情の度合が大きくなるにしたがって、顔表情強度教師値が例えば“８”、“４６”、“８３”等と大きくなり、ピーク顔表情に対応する顔表情強度教師値が“１００”となっている。また、顔表情種別が“幸せ”である第２の被写体の顔画像データ列について、ニュートラル顔表情に対応する顔表情強度教師値が“０（ゼロ）”、顔表情の度合が大きくなるにしたがって、顔表情強度教師値が例えば“６”、“５２”、“７９”等と大きくなり、ピーク顔表情に対応する顔表情強度教師値が“１００”となっている。また、顔表情種別が“驚き”である顔画像データ列について、ニュートラル顔表情に対応する顔表情強度教師値が“０（ゼロ）”、顔表情の度合が大きくなるにしたがって、顔表情強度教師値が例えば“７”、“４３”、“８８”等と大きくなり、ピーク顔表情に対応する顔表情強度教師値が“１００”となっている。なお、この例のように、ニュートラル顔表情からピーク顔表情に顔表情が変化する顔画像列に対し、顔表情強度教師値の下限値および上限値を設けることを必須の条件としてもよいし、必須の条件としなくてもよい。

図５は、画像データと、この画像データから抽出された顔領域データと、この顔領域データを正規化して得られた正規化顔領域データとを模式的に示す図である。つまり、同図は、画像データ取得部１０が取得する画像データ２と、顔領域検出部３１が検出する顔領域データ２ａと、解析領域決定部３２が正規化（ここでは、縮小）する正規化顔領域データ２ｂとを時系列に示している。同図に示すように、画像データ２は、人物の首より上側を含む画像である。顔領域データ２ａは、画像データ２から抽出された顔を含む画像である。顔を含む画像とは、例えば、人物の顔表情を決定付ける顔の主要なパーツ（両眉毛、両目、鼻、口）を含む画像である。正規化顔領域データ２ｂは、顔領域データ２ａを水平画素数Ｌ_Ｘ×垂直画素数Ｌ_Ｙサイズに正規化した画像である。水平画素数Ｌ_Ｘと垂直画素数Ｌ_Ｙとの関係は、例えば、正規化顔領域が正方形となる関係である。

図６は、解析領域決定部３２が正規化顔領域データ２ｂから決定した解析領域を、視覚的に分かり易く線描画した図である。同図に示すように、解析領域決定部３２は、水平画素数Ｌ_Ｘ×垂直画素数Ｌ_Ｙの正規化顔領域データ２ｂの中心位置を中心として、正規化顔領域データ２ｂに含まれる円形の解析領域３を決定する。解析領域３の水平方向の径は、例えば水平画素数Ｌ_Ｘの０．８倍の大きさを有し、垂直方向の径は、例えば垂直画素数Ｌ_Ｙの０．８倍の大きさを有する。このように、解析領域３の径を正規化顔領域データ２ｂの内接円の径よりも小さくすることにより、顔の認識や顔表情認識にとって重要度が低い髪の毛、耳、イヤリング等の情報を除外することができる。解析領域決定部３２は、解析領域３の中心を通る水平線で、解析領域３を上部解析領域３Ｕと下部解析領域３Ｄとに区分する。このように区分することにより、上部解析領域３Ｕは両眉毛および両目を含み、下部解析領域３Ｄは鼻頭および口を含むこととなる。

図７は、画像特徴量計算部４０によって生成された、上部解析領域における特徴量のヒストグラムと、下部解析領域における特徴量のヒストグラムと、これら二つのヒストグラムが連結された、解析領域全体における特徴量のヒストグラムとを模式的に示した図である。同図は、上部解析領域における特徴量のヒストグラムの後に、下部解析領域における特徴量のヒストグラムを連結した例である。このように、画像特徴量計算部４０が、分割された各領域でヒストグラムを生成して連結することにより、Ｂａｇ−ｏｆ−Ｋｅｙｐｏｉｎｔｓに位置情報を加えることができる。なお、画像特徴量計算部４０は、下部解析領域における特徴量のヒストグラムの後に、上部解析領域における特徴量のヒストグラムを連結することによって、解析領域全体における特徴量のヒストグラムを生成してもよい。

図８は、回帰分析部５０が実行する回帰分析処理における一つの回帰モデルを模式的に示した図である。同図において、横軸は回帰式における独立変数を表し、本実施形態では、顔画像データの顔領域の画像特徴量を表す。縦軸は回帰式における従属変数を表し、本実施形態では、顔表情強度教師値を表わす。同図における複数の四角形印の分布は、画像特徴量とこの画像特徴量に対する顔表情強度教師値との対応関係を示している。また、同図において曲線で表されている実線は、回帰分析部５０が実行する回帰分析処理によって得られる回帰式を示すグラフである。

回帰分析部５０は、回帰モデルとして、例えば、線形回帰モデル、ロジスティック回帰モデル、またはサポートベクトル回帰モデルを適用して回帰分析処理を実行する。次に、各回帰モデルを適用した回帰分析処理について説明する。

［１］線形回帰モデル
回帰モデルとして線形回帰モデルを適用した場合、回帰分析部５０は、線形回帰分析処理として、画像特徴量および顔表情強度教師値の関係を、下記の式（１）に示す積和関数にモデル化する。ただし、Ｙは顔表情強度教師値、Ｘ_ｉは画像特徴量（ｉ＝１，・・・，Ｉ）である。また、α、β_ｉはパラメータである。

回帰分析部５０は、画像特徴量とこの画像特徴量に対する顔表情強度教師値との対応関係を例えば最小二乗法によって回帰させることにより、式（１）に示す積和関数を推計する。具体的に、式（１）が画像特徴量とこの画像特徴量に対する顔表情強度教師値との対データに対して最適な近似式となるように、回帰分析部５０は、近似誤差の二乗和が最小となるパラメータα、β_ｉを、例えば最急降下法によって求める。回帰分析部５０は、回帰分析処理において、相関が強い（例えば、相関係数が“０．５”以上である）独立変数の一方を削除することによって多重共線を排除または抑制してもよい。また、全ての顔表情種別に共通して“０（ゼロ）”である独立変数（画像特徴量）について、回帰分析部５０は、その独立変数を削除する処理を行ってもよい。

［２］ロジスティック回帰モデル
回帰モデルとしてロジスティック回帰モデルを適用した場合、回帰分析部５０は、ロジスティック回帰分析処理として、画像特徴量および顔表情強度教師値の関係を、下記の式（２）に示す関数にモデル化する。ただし、Ｙは顔表情強度教師値、Ｘ_ｉは画像特徴量（ｉ＝１，・・・，Ｉ）である。また、α、β_ｉはパラメータである。

回帰分析部５０は、画像特徴量とこの画像特徴量に対する顔表情強度教師値との対応関係を回帰させることによってパラメータα、β_ｉを求める。このロジスティック回帰モデルを適用することにより、回帰分析部５０は、画像特徴量Ｘ_ｉに対する顔表情強度教師値Ｙが０から１００までの間（０≦Ｙ≦１００）に収まる回帰式を得ることができる。

［３］サポートベクトル回帰モデル
回帰モデルとしてサポートベクトル回帰モデルを適用した場合、回帰分析部５０は、サポートベクトル回帰分析処理として、下記の式（３）の形で、画像特徴量Ｘ_ｉ（ｉ＝１，・・・，Ｉ）と顔表情強度教師値Ｙとを関係付ける。

式（３）において、関数φは、Ｉ次元の特徴量ベクトルをＪ次元のベクトル（行ベクトル）に写像する写像関数である。このサポートベクトル回帰モデルは、関数φによるカーネルトリックを用いる。β_ｊ（ｊ＝１，・・・，Ｊ）は、関数φによる写像後のベクトルの要素それぞれに対応する重み係数である。また、αはバイアス項である。回帰分析部５０は、入力される多数の顔表情強度教師値を用いて式（３）の形の回帰を行い、パラメータα，β_１，・・・，β_Ｊを求める。なお、パラメータの計算自体は、例えば、ニュートン法に基づいて既存のサポートベクトル回帰の学習法を適用することができる。

次に、顔表情解析装置１の動作について説明する。
まず、学習モードに設定された顔表情解析装置１は、学習処理において用いる全ての顔画像データを顔画像データベースから取り込んで、以下に示す事前処理を実行する。すなわち、画像データ取得部１０が、顔画像データベースから顔画像データを取り込む。次に、顔領域抽出部３０がその取り込んだ顔画像データのサイズを正規化して解析領域（上部解析領域および下部解析領域）を抽出する。次に、画像特徴量計算部４０が、上部解析領域について、ＳＩＦＴ特徴量またはＳＵＲＦ特徴量等の局所特徴量を計算する。次に、画像特徴量計算部４０が、全ての顔画像データの上部解析領域に対する局所特徴量についてクラスタリング処理を実行することによってクラスタを生成し、このクラスタを記憶部に記憶させる。また、画像特徴量計算部４０は、下部解析領域についても上部解析領域と同様にクラスタを生成し、このクラスタを記憶部に記憶させる。

次に、顔表情解析装置１の学習処理について説明する。
図９は、顔表情解析装置１が実行する学習処理の手順を示すフローチャートである。
ステップＳ１において、画像データ取得部１０は、例えば、顔画像データベースに格納された複数の顔画像データから一つの顔画像データを取り込み、この顔画像データを顔領域抽出部３０に供給する。
次に、ステップＳ２において、顔表情強度教師値取得部２０は、ステップＳ１の処理において画像データ取得部１０に取り込まれた顔画像データに対応する顔表情強度教師値を、外部装置（例えば、顔画像データベース）から取り込み、この顔表情強度教師値を回帰分析部５０に供給する。

次に、ステップＳ３において、顔領域抽出部３０は、画像データ取得部１０が供給する顔画像データを取り込み、この顔画像データに対して顔検出処理を実行することによってその顔画像データから人物の顔領域を検出する。次に、解析領域決定部３２は、顔領域検出部３１が検出した顔領域データを所定サイズ（例えば、水平方向１２８画素×垂直方向１２８画素）に正規化する。次に、解析領域決定部３２は、正規化顔領域データから解析領域を抽出し、この解析領域から二つの解析部分領域（上部解析領域および下部解析領域）を決定する。

次に、ステップＳ４において、画像特徴量計算部４０は、顔領域抽出部３０が抽出した解析領域データの画像特徴量を計算する。具体的に、画像特徴量計算部４０は、上部解析領域からＳＩＦＴ特徴量またはＳＵＲＦ特徴量等の局所特徴量を計算する。次に、画像特徴量計算部４０は、これら局所特徴量を、事前処理において記憶した上部解析領域に対するクラスタに分類し、各クラスタをビン、各クラスタの要素数を頻度とするヒストグラムを生成する。また、画像特徴量計算部４０は、下部解析領域からＳＩＦＴ特徴量またはＳＵＲＦ等の局所特徴量を計算する。次に、画像特徴量計算部４０は、これら局所特徴量を、事前処理において記憶した下部解析領域に対するクラスタに分類し、各クラスタをビン、各クラスタの要素数を頻度とするヒストグラムを生成する。次に、画像特徴量計算部４０は、上部解析領域および下部解析領域それぞれについてのヒストグラムを連結して解析領域全体のヒストグラム、言い換えると、解析領域全体のＢａｇ−ｏｆ−Ｋｅｙｐｏｉｎｔｓを生成する。次に、画像特徴量計算部４０は、解析領域全体のＢａｇ−ｏｆ−Ｋｅｙｐｏｉｎｔｓを、画像特徴量として回帰分析部５０に供給する。

次に、ステップＳ５において、顔画像データベースから取り込むべき全ての顔画像データの取り込みが完了した場合（ステップＳ５：ＹＥＳ）、顔表情解析装置１はステップＳ６の処理に移す。一方、顔画像データベースから取り込むべき全ての顔画像データの取り込みが完了していない場合（ステップＳ５：ＮＯ）は、顔表情解析装置１はステップＳ１の処理に戻す。

ステップＳ６において、回帰分析部５０は、顔画像データに対する画像特徴量とその顔画像データに対応付けられた顔表情種別ごとの顔表情強度教師値とを用いて回帰分析処理を実行することにより、回帰モデルが有するパラメータ値を顔表情種別ごとに更新する。次に、回帰分析部５０は、回帰処理を行って得られるパラメータ値を、回帰モデル記憶部６０に供給する。
次に、ステップＳ７において、回帰モデル記憶部６０は、回帰分析部５０が供給するパラメータ値を、顔表情種別ごとに記憶する。

図１０は、顔表情解析装置１が実行する１フレーム分の顔表情評価処理の手順を示すフローチャートである。
ステップＳ２１において、画像データ取得部１０は、例えば、映像撮影装置または映像記録装置が供給する、顔表情解析のための評価顔画像データを取り込み、この評価顔画像データを顔領域抽出部３０に供給する。

次に、ステップＳ２２において、顔領域抽出部３０は、画像データ取得部１０が供給する評価顔画像データを取り込み、この評価顔画像データに対して顔検出処理を実行することによってその評価顔画像データから人物の顔領域を検出する。次に、解析領域決定部３２は、顔領域検出部３１が検出した評価顔領域データを所定サイズ（例えば、水平方向１２８画素×垂直方向１２８画素）に正規化する。次に、解析領域決定部３２は、正規化顔領域データから解析領域を抽出し、この解析領域から二つの解析部分領域（上部解析領域および下部解析領域）を決定する。

次に、ステップＳ２３において、画像特徴量計算部４０は、顔領域抽出部３０が抽出した解析領域データの画像特徴量を計算する。例えば、画像特徴量計算部４０は、解析領域決定部３２が決定した解析領域における上部解析領域および下部解析領域それぞれのデータについて、学習処理におけるステップＳ４（図９参照）の処理と同様に、ヒストグラムを計算する。次に、画像特徴量計算部４０は、上部解析領域および下部解析領域それぞれについてのヒストグラムを連結して解析領域全体のヒストグラム、つまり、解析領域全体のＢａｇ−ｏｆ−Ｋｅｙｐｏｉｎｔｓを生成する。次に、画像特徴量計算部４０は、解析領域全体のＢａｇ−ｏｆ−Ｋｅｙｐｏｉｎｔｓを、画像特徴量として顔表情評価部７０に供給する。

次に、ステップＳ２４において、顔表情評価部７０は、画像特徴量計算部４０が供給する、評価顔画像データに対する画像特徴量を取り込む。次に、顔表情評価部７０は、回帰モデル記憶部６０から、顔表情種別ごとに回帰モデルのパラメータ値を読み込む。次に、顔表情評価部７０は、各回帰モデルに画像特徴量を適用して顔表情種別ごとに顔表情強度値を計算することによって顔表情強度値セットを生成する。

図１１は、顔表情解析モードに設定されている顔表情解析装置１が評価映像データを取り込んで顔表情評価処理を繰り返し実行することによって顔表情評価部７０で得られる、一連の顔表情強度値セットの一例を示す図である。同図において、網掛けされた顔表情強度値は、各顔表情強度値セット、つまり各フレームにおける顔表情強度値の最大値（顔表情強度最大値）である。同図によれば、時刻（ｔ−３）から時刻（ｔ＋４）までの８フレームにおいて、時刻（ｔ−３），（ｔ−２），（ｔ−１），（ｔ＋１），（ｔ＋２），（ｔ＋３），（ｔ＋４）それぞれの顔表情強度値セットにおける顔表情強度最大値に対応する顔表情種別（代表顔表情種別）は、「悲しみ」である。これに対し、時刻ｔの顔表情強度値セットにおける顔表情強度最大値に対応する代表顔表情種別は、「幸せ」である。同図を参照して、時刻（ｔ−２）から時刻（ｔ＋３）までの６フレームを一区間とした場合の、平滑化処理部８０が実行する顔表情評価結果平滑化処理について説明する。

平滑化処理部８０において、顔表情強度値取得部８１は、顔表情評価部７０が供給する顔表情強度値セットを時系列に取り込んで内蔵するバッファに記憶させる。つまり、顔表情強度値取得部８１は、時刻（ｔ−２）から時刻（ｔ＋３）までの６フレーム分の顔表情強度値セットをバッファに記憶させる。

顔表情強度値取得部８１のバッファに６フレーム分の顔表情強度値セットが記憶されると、顔表情強度値平滑化処理部８２は、そのバッファに記憶された６フレーム分の顔表情強度値セットについて、顔表情種別ごとに当該区間内における顔表情強度値の平均値を計算する。

具体的に、顔表情強度値平滑化処理部８２は、当該区間内において、顔表情種別が「怒り」である６個の顔表情強度値の平均値｛（６．１＋２．４＋３．２＋３．５＋４．１＋５．２）／６｝を計算し、顔表情種別「怒り」に対する顔表情強度の平均値“４．１”を得る。また、顔表情強度値平滑化処理部８２は、当該区間内において、顔表情種別が「嫌悪」である６個の顔表情強度値の平均値｛（２．７＋３．３＋２．４＋２．１＋０．８＋０．１）／６｝を計算し、顔表情種別「嫌悪」に対する顔表情強度の平均値“１．９”を得る。また、顔表情強度値平滑化処理部８２は、当該区間内において、顔表情種別が「恐れ」である６個の顔表情強度値の平均値｛（８．９＋１１．１＋５．２＋７．８＋２．３＋１．７）／６｝を計算し、顔表情種別「恐れ」に対する顔表情強度の平均値“６．２”を得る。また、顔表情強度値平滑化処理部８２は、当該区間内において、顔表情種別が「幸せ」である６個の顔表情強度値の平均値｛（１８．８＋４８．３＋７８．２＋２５．５＋６０．２＋４０．１）／６｝を計算し、顔表情種別「幸せ」に対する顔表情強度の平均値“４５．２”を得る。また、顔表情強度値平滑化処理部８２は、当該区間内において、顔表情種別が「悲しみ」である６個の顔表情強度値の平均値｛（６８．３＋７０．１＋７２．３＋７４．５＋７２．２＋７４．５）／６｝を計算し、顔表情種別「悲しみ」に対する顔表情強度の平均値“７２．０”を得る。また、顔表情強度値平滑化処理部８２は、当該区間内において、顔表情種別が「驚き」である６個の顔表情強度値の平均値｛（１．８＋９．２＋１２．８＋６．５＋２．１＋４．４）／６｝を計算し、顔表情種別「驚き」に対する顔表情強度の平均値“６．１”を得る。

そして、顔表情強度値平滑化処理部８２は、６種類の顔表情種別それぞれに対する顔表情強度値の平均値のうち最大の平均値である“７２．０”を、当該区間内の時刻ｔに対応する平滑化後の代表顔表情強度値として出力する。

つまり、平滑化処理部８０は、下記の式（４）により、当該区間内の時刻ｔにおける代表顔表情強度値Ｉ_ｔを計算する。ただし、ｅは、顔表情種別（例えば、「怒り（Ａｎｇｅｒ）」、「嫌悪（Ｄｉｓｇｕｓｔ）」、「恐れ（Ｆｅａｒ）」、「幸せ（Ｈａｐｐｉｎｅｓｓ）」、「悲しみ（Ｓａｄｎｅｓｓ）」、および「驚き（Ｓｕｒｐｒｉｓｅ）」の６種類）を示す。Ｉ_ｅＴは、時刻Ｔ（（ｔ−ｍ）≦Ｔ≦（ｔ＋ｎ））における顔表情種別ｅに対応する顔表情強度値である。よって、時刻（ｔ−ｍ）から時刻（ｔ＋ｎ）まで顔表情強度値Ｉ_ｅＴをたし合わせたものが合計値である。また、図１１を適用した場合、ｍは“２”、ｎは“３”である。

また、顔表情種別平滑化処理部８３は、顔表情強度値平滑化処理部８２が求めた、顔表情種別ごとの顔表情強度値の平均値のうち最大の平均値“７２．０”に対応する顔表情種別「悲しみ」を、当該区間内の時刻ｔに対応する平滑化後の顔表情の分類結果として選出する。そして、顔表情種別平滑化処理部８３は、その顔表情の分類結果である「悲しみ」を示す顔表情種別情報を生成し、この顔表情種別情報を出力する。

つまり、平滑化処理部８０は、下記の式（５）により、当該区間内の時刻ｔにおける顔表情種別情報Ｅ_ｔを計算する。

このように、平滑化処理部８０は、一区間における複数の顔表情強度値セット、つまり、この区間における顔表情種別ごとの各顔表情強度値を信頼度として用いることによって、その区間における顔表情評価結果を平滑化する。よって、平滑化処理部８０は、当該区間内において、信頼性が高い顔表情強度値および顔表情種別情報を得ることができる。

図１２は、平滑化処理部８０が実行する一区間分の顔表情評価結果平滑化処理の手順を示すフローチャートである。
ステップＳ４１において、顔表情強度値取得部８１は、顔表情評価部７０が供給する１フレーム分の顔表情強度値セットを取り込み、この顔表情強度値セットを内蔵するバッファに記憶させる。

次に、ステップＳ４２において、顔表情強度値取得部８１は、バッファに一区間分の顔表情強度値セットを記憶した場合に（ステップＳ４２：ＹＥＳ）、ステップＳ４３の処理に移し、バッファに一区間分の顔表情強度値セットを記憶していない場合に（ステップＳ４２：ＮＯ）、ステップＳ４１の処理に戻す。

ステップＳ４３において、顔表情強度値平滑化処理部８２は、顔表情強度値取得部８１のバッファに記憶された６フレーム分の顔表情強度値セットについて、顔表情種別ごとに当該区間内における顔表情強度値の平均値を計算する。次に、顔表情強度値平滑化処理部８２は、顔表情種別ごとの顔表情強度値の平均値のうち最大の平均値を、当該区間に対応する平滑化後の代表顔表情強度値として出力する。

次に、ステップＳ４４において、顔表情種別平滑化処理部８３は、顔表情強度値平滑化処理部８２が求めた、顔表情種別ごとの顔表情強度値の平均値における最大値に対応する顔表情種別を、当該区間内における各フレームに対応する平滑化後の顔表情の分類結果として選出する。次に、顔表情種別平滑化処理部８３は、その顔表情の分類結果を示す顔表情種別情報を生成し、この顔表情種別情報を出力する。

図１３は、平滑化処理部８０が顔表情評価結果平滑化処理を行う前後それぞれの顔表情評価結果を模式的に示す図である。同図における上段のグラフは、平滑化処理部８０が顔表情評価結果平滑化処理を実行する前の顔表情評価結果を時系列に示したグラフである。この上段のグラフは、横軸を時間軸とし、縦軸を顔表情強度値セットにおける顔表情強度最大値としている。上段のグラフが示すように、平滑化処理部８０が顔表情評価結果平滑化処理を実行する前の顔表情強度最大値は、時間経過に対してばらつきを有している。

また、上段のグラフの直下に示す△、○、および□記号（顔表情記号と呼ぶ）は、顔表情強度最大値に対応する代表顔表情種別が示す表情を表す記号であり、グラフの時間軸に対応付けて図示されている。ここでは、△は「幸せ」、○は「驚き」、□は「怒り」を示す記号である。上段のグラフ直下の一連の顔表情記号によれば、「幸せ」を示す顔表情の中に、突発的に「驚き」および「怒り」の顔表情が現出している。

これに対して、図１３における下段のグラフは、平滑化処理部８０が顔表情評価結果平滑化処理を実行した後の顔表情評価結果を時系列に示したグラフである。この下段のグラフは、横軸を時間軸とし、縦軸を平滑化後の顔表情強度値としている。下段のグラフが示すように、平滑化処理部８０が顔表情評価結果平滑化処理を実行した後の顔表情強度値は、複数フレーム（同図では１０フレーム）ごと、つまり、時間Ｔ_１，Ｔ_２，Ｔ_３，Ｔ_４，・・・において、ばらつきがない顔表情強度値となっている。また、下段のグラフ直下の一連の顔表情記号によれば、突発的な顔表情が現出することなく、安定した顔表情分類の結果が示されている。

以上説明したとおり、平滑化処理部８０は、複数フレームを含む区間ごとに、これら複数フレーム分の顔表情強度値セットを用いて顔表情評価結果を平滑化することにより、顔表情評価結果におけるエラーを除去し、安定した顔表情強度値と顔表情の分類結果とを得ることができる。

［第２の実施の形態］
第１実施形態では、平滑化処理部８０における顔表情強度値平滑化処理部８２が、一区間内の複数フレーム分の顔表情強度値セットについて、顔表情種別ごとに顔表情強度値の平均値（単純平均値）を計算した。これに対し、本発明の第２実施形態では、顔表情強度値平滑化処理部が、一区間内の複数フレーム分の顔表情強度値セットについて、顔表情種別ごとに顔表情強度値の加重平均値を計算する。第２実施形態における顔表情解析装置の構成は、第１実施形態における顔表情解析装置１の構成と同じであるため、図１および図２を参照することとし、第１実施形態と異なる機能についてのみ説明する。

第２実施形態において、顔表情強度値平滑化処理部８２は、顔表情強度値取得部８１がバッファに記憶させた複数フレーム分の顔表情強度値セットを含む区間ごとに、当該区間内の複数フレーム分の顔表情強度値セットについて、顔表情種別ごとにフレームの位置に応じて重み付けした顔表情強度値の合計値を計算する。そして、顔表情強度値平滑化処理部８２は、顔表情種別ごとの重み付けされた顔表情強度値の合計値に基づいて、顔表情種別ごとの平均値を計算する。つまり、この平均値は加重平均値である。各フレームに対する重み付けの係数（重み係数）は、一区間に含まれる一連のフレームにおいて単調に増加もしくは単調に減少、または単調に増加した後に単調に減少する値とする。例えば、図１１に示した一区間を例にすると、時刻（ｔ−２）から時刻ｔに近づくにしたがって大きくなる重み係数、また、時刻ｔから時刻（ｔ＋３）に近づくにしたがって小さくなる重み係数を、６フレームそれぞれに対する重み係数とする。具体的に、例えば、時刻（ｔ−２）に対して“０．０５”、時刻（ｔ−１）に対して“０．２”、時刻ｔに対して“０．４”、時刻（ｔ＋１）に対して“０．２”、時刻（ｔ＋２）に対して“０．１”、および時刻（ｔ＋３）に対して“０．０５”の重み係数とする。

そして、顔表情強度値平滑化処理部８２は、顔表情種別ごとの顔表情強度値の加重平均値のうち最大の加重平均値、言い換えると、顔表情種別ごとの顔表情強度値の重み付けされた合計値のうち最大の合計値から求まる平均値を、当該区間内の時刻ｔに対応する平滑化後の代表顔表情強度値として出力する。

このように構成することにより、顔表情強度値平滑化処理部８２は、一区間における所定のフレームおよびこのフレームに近いフレームに大きな信頼度をもたせて顔表情強度値を平滑化することができる。

また、第２実施形態において、顔表情種別平滑化処理部８３は、顔表情強度値取得部８１がバッファに記憶させた複数フレーム分の顔表情強度値セットを含む区間ごとに、顔表情強度値平滑化処理部８２が求めた加重平均値における最大値に対応する顔表情種別を、当該区間内における各フレームに対応する平滑化後の顔表情の分類結果として選出する。そして、顔表情種別平滑化処理部８３は、その顔表情の分類結果を示す顔表情種別情報を生成し、この顔表情種別情報を出力する。

［第３の実施の形態］
第１実施形態および第２実施形態では、平滑化処理部８０における顔表情強度値平滑化処理部８２が、一区間内の複数フレーム分の顔表情強度値セットについて、顔表情種別ごとに顔表情強度値の平均値（単純平均値、加重平均値）を計算し、最大の平均値を代表顔表情強度値とした。これに対し、本発明の第３実施形態では、顔表情強度値平滑化処理部が、区間ごとに、当該区間内の複数フレーム分の顔表情強度値セットにおける顔表情強度最大値の個数を代表顔表情種別ごとに計数することに基づいて、代表顔表情強度値を得る。第３実施形態における顔表情解析装置の構成は、第１実施形態における顔表情解析装置１の構成と同じであるため、図１および図２を参照することとし、第１実施形態と異なる機能についてのみ説明する。

第３実施形態において、顔表情強度値平滑化処理部８２は、バッファに記憶された一区間分の顔表情強度値を参照し、代表顔表情種別ごとに、当該代表顔表情種別の顔表情強度値がフレーム内において最大値（顔表情強度最大値）となる場合のフレームの個数を、当該区間にわたって計数する。そして、顔表情強度値平滑化処理部８２は、その計数結果をその代表顔表情種別における合計値とする。そして、顔表情強度値平滑化処理部８２は、代表顔表情種別ごとの合計値のうち、最大の合計値に対応する代表顔表情種別についての区間内の顔表情強度最大値の単純平均値を求め、この単純平均値を当該区間における代表顔表情強度値とする。

また、顔表情種別平滑化処理部８３は、顔表情強度値平滑化処理部８２が求めた最大の合計値に対応する顔表情種別を、当該区間に対応する平滑化後の顔表情の分類結果として選出する。

具体的に、図１１に示した一区間分の顔表情強度値を例とすると、顔表情強度値平滑化処理部８２は、当該区間内の６フレーム分の顔表情強度値における顔表情強度最大値（網掛けされた数値）に対応する顔表情種別（代表顔表情種別）として、「幸せ」および「悲しみ」を抽出する。そして、顔表情強度値平滑化処理部８２は、抽出した代表顔表情種別それぞれについて顔表情強度最大値の個数を計数し、代表顔表情種別「幸せ」に対して合計値“１”、代表顔表情種別「悲しみ」に対して合計値“５”を得る。そして、顔表情強度値平滑化処理部８２は、合計値のうち最大の合計値“５”に対応する代表顔表情種別「悲しみ」についての当該区間内の顔表情強度最大値の平均値“（６８．３＋７０．１＋７２．３＋７４．５＋７２．２＋７４．５）／６＝７２．０”を求め、この平均値“７２．０”を当該区間における代表顔表情強度値とする。また、顔表情種別平滑化処理部８３は、顔表情強度値平滑化処理部８２が求めた最大の合計値“５”に対応する顔表情種別「悲しみ」を、当該区間に対応する平滑化後の顔表情の分類結果として選出する。

［第４の実施の形態］
第３実施形態では、平滑化処理部８０における顔表情強度値平滑化処理部８２が、一区間内の顔表情強度値セットにおける顔表情強度最大値の個数を、代表顔表情種別ごとに計数することによって代表顔表情強度値を得た。これに対し、本発明の第４実施形態では、顔表情強度値平滑化処理部が、一区間内の顔表情強度値セットにおける顔表情強度最大値の個数を、フレームの位置に応じた重み付けをして代表顔表情種別ごとに計数することによって代表顔表情強度値を得る。第４実施形態における顔表情解析装置の構成は、第１実施形態における顔表情解析装置１の構成と同じであるため、図１および図２を参照することとし、第１実施形態と異なる機能についてのみ説明する。

第４実施形態において、顔表情強度値平滑化処理部８２は、顔表情強度値取得部８１がバッファに記憶させた複数フレーム分の顔表情強度値セットを含む区間ごとに、当該区間内の複数フレーム分の顔表情強度値セットにおける顔表情強度最大値の個数にフレームの位置に応じた重み付けをし、重み付けされた個数を顔表情種別ごとに計数する。各フレームの位置に応じた重み付けの値（重み）は、一区間に含まれる一連のフレームにおいて単調に増加もしくは単調に減少、または単調に増加した後に単調に減少する値とする。例えば、図１１に示した一区間を例にすると、時刻（ｔ−２）から時刻ｔに近づくにしたがって大きくなる重み、また、時刻ｔから時刻（ｔ＋３）に近づくにしたがって小さくなる重みを、６フレームそれぞれに対する重みとする。具体的に、例えば、時刻（ｔ−２）に対して“１”、時刻（ｔ−１）に対して“２”、時刻ｔに対して“４”、時刻（ｔ＋１）に対して“３”、時刻（ｔ＋２）に対して“２”、および時刻（ｔ＋３）に対して“１”の重みとする。そして、顔表情強度値平滑化処理部８２は、個数の合計値のうち最大の合計値を代表顔表情強度値とする。

具体的に、上記の重みを例とし、また、図１１に示した一区間分の顔表情強度値を例として説明する。顔表情強度値平滑化処理部８２は、当該区間内の６フレーム分の顔表情強度値における顔表情強度最大値に対応する代表顔表情種別として、「幸せ」および「悲しみ」を抽出する。そして、顔表情強度値平滑化処理部８２は、抽出した代表顔表情種別それぞれについて、フレームの位置に応じた重み付けをして、顔表情強度最大値の個数を計数する。つまり、顔表情強度値平滑化処理部８２は、代表顔表情種別「幸せ」に対して合計値“１×４＝４”を得る。また、顔表情強度値平滑化処理部８２は、代表顔表情種別「悲しみ」に対して合計値“１×１＋１×２＋１×３＋１×２＋１×１＝９”を得る。そして、顔表情強度値平滑化処理部８２は、合計値のうち最大の合計値“９”に対応する代表顔表情種別「悲しみ」についての当該区間内の顔表情強度値の加重平均値“（１×６８．３＋２×７０．１＋４×７２．３＋３×７４．５＋２×７２．２＋１×７４．５）／１３＝７２．３”を求め、この加重平均値“７２．３”を当該区間における代表顔表情強度値とする。また、顔表情種別平滑化処理部８３は、顔表情強度値平滑化処理部８２が求めた最大の合計値“９”に対応する顔表情種別「悲しみ」を、当該区間に対応する平滑化後の顔表情の分類結果として選出する。

［第５の実施の形態］
第１実施形態では、平滑化処理部８０が、区間ごとに平滑化した顔表情強度値および顔表情種別情報を取得した。これに対し、本発明の第５実施形態では、上記の区間を時間方向にずらしながら顔表情強度値および顔表情種別情報を得る。第５実施形態における顔表情解析装置の構成は、第１実施形態における顔表情解析装置１の構成と同じであるため、図１および図２を参照することとし、第１実施形態と異なる機能についてのみ説明する。

第５実施形態において、顔表情強度値平滑化処理部８２は、一区間に含まれる複数フレームよりも少ないフレーム数をシフト量（ずらし量）とし、当該区間をそのシフト量ずつ時間方向にずらす。例えば、顔表情強度値平滑化処理部８２は、シフト量を１フレームとし、区間を１フレームずつ時間方向にずらす。顔表情強度値平滑化処理部８２は、ずらした区間ごとに、当該区間内の顔表情強度値セットについて、顔表情種別ごとに顔表情強度値の平均値を計算する。そして、顔表情強度値平滑化処理部８２は、顔表情種別ごとの顔表情強度値の平均値のうち最大の平均値を、当該区間に対応する平滑化後の代表顔表情強度値として出力する。

また、第５実施形態において、顔表情種別平滑化処理部８３は、シフト量だけずらされた区間において、顔表情強度値平滑化処理部８２が求めた平滑化後の顔表情強度値に対応する顔表情種別を、当該区間内における各フレームに対応する平滑化後の顔表情の分類結果として選出する。そして、顔表情種別平滑化処理部８３は、その顔表情の分類結果を示す顔表情種別情報を生成し、この顔表情種別情報を出力する。

なお、顔表情強度値平滑化処理部８２が区間をシフト量だけ時間方向にずらす処理は、第２実施形態から第４実施形態いずれにおいても適用できる。

図１４は、平滑化処理部８０における区間の移動を説明するための図である。同図における各グラフは、横軸を時間軸とし、縦軸を顔表情強度値としている。時刻ｔ_１、時刻ｔ_２、および時刻ｔ_３は、連続するフレームに対する時刻である。つまり、時刻ｔ_２は、時刻ｔ_１におけるフレームの次フレームに対応する時刻、時刻ｔ_３は、時刻ｔ_２におけるフレームの次フレームに対応する時刻である。また、時間（ｔ_ｐ＋ｔ_ｆ）は、一区間である。よって、同図における上段、中段、および下段のグラフは、１フレームをシフト量とし、時刻（ｔ_１−ｔ_ｐ）から時刻（ｔ_１＋ｔ_ｆ）までの区間を順次時間方向にずらした様子を示している。

第５実施形態によれば、平滑化処理部８０は、一区間においてばらつきを抑えて信頼度を向上させた顔表情強度値を、時間方向のシフト量ごとに出力することができる。

［その他の実施の形態］
上述した本発明の第１実施形態から第４実施形態における画像特徴量計算部４０は、画像特徴量としてＢａｇ−ｏｆ−Ｋｅｙｐｏｉｎｔｓを求める他に、例えば、ローカルバイナリパターン（ＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎｓ；ＬＢＰ）、または拡張ローカルバイナリパターン（拡張ＬＢＰ）を求めてもよい。

ローカルバイナリパターンは、画像特徴量計算部４０が、解析領域において走査し選択する注目画素と、この注目画素の周辺画素（例えば、８個の隣接画素）とをそれぞれ比較し大小関係を二値化することによって得られるバイナリパターンを画像特徴量とするものである。画像特徴量計算部４０は、解析領域に含まれる各画素を注目画素として順次走査してもよいし、所定数の画素間隔で離散的に走査してもよい。

ローカルバイナリパターンについては、例えば、Timo Ojala, Matti Pietikainen, Senior Member, IEEE and Topi Maenpaa, "Multiresolution Gray-Scale and Rotation Invariant Texture Classification with Local Binary Patterns", IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 24, no. 7, July 2002に、詳細が開示されている。

具体的に、顔領域抽出部３０の解析領域決定部３２は、正規化顔領域データを格子状に分割（例えば、水平方向および垂直方向それぞれに８分割）する。つまり、解析領域決定部３２は、正規化顔領域データの各分割ブロックデータを解析領域データとする。画像特徴量計算部４０は、各分割ブロックデータについて、例えば画素ごとにＬＢＰを計算する。そして、画像特徴量計算部４０は、全てのＬＢＰのパターンをビン、各パターンの出力回数を頻度とするヒストグラムを生成する。そして、画像特徴量計算部４０は、各分割ブロックのヒストグラムを連結した連結ヒストグラムを顔画像特徴量とする。

また、拡張ローカルバイナリパターンは、上記のローカルバイナリパターンを時系列方向に拡張して得られるバイナリパターンを特徴量とするものである。つまり、拡張ローカルバイナリパターンは、顔表情解析装置１が評価映像データを取り込む場合に有用な特徴量である。画像特徴量計算部４０は、評価映像データに含まれる現在評価顔画像データの特徴量をローカルバイナリパターンとして求める際に、現在評価顔画像データとこの現在評価顔画像データよりも過去および未来の評価顔画像データとの画素の比較結果もバイナリパターンに含める。

拡張ＬＢＰについては、例えば、Guoying Zhao, Matti Pietikainen, "Dynamic Texture Recognition Using Local Binary Patterns with an Application to Facial Expressions", IEEE Transactions on Patterns Analysis and Machine Intelligence, vol. 29, no. 6, June 2007に、詳細が開示されている。

また、回帰分析部５０に線形回帰モデルまたはサポートベクトル回帰モデルのいずれかを適用してパラメータ値を求めた場合、顔表情評価部７０から出力される顔表情強度値が、下限値（例えば“０（ゼロ）”）から上限値（例えば“１００”）までの範囲内に収まらない場合がある。そこで、回帰分析部５０に線形回帰モデルまたはサポートベクトル回帰モデルのいずれかを適用する場合、顔表情評価部７０は、求めた顔表情強度値が“０（ゼロ）”未満であるときは“０（ゼロ）”、“１００”を超えるときは“１００”として、顔表情強度値を出力してもよい。

または、回帰分析部５０に線形回帰モデルまたはサポートベクトル回帰モデルのいずれかを適用した顔表情解析装置１に、各評価顔画像データについて顔認識処理を実行して人物を識別する顔認識処理部をさらに備えてもよい。この場合、顔表示解析装置１が顔表情解析モードに設定された場合、所定期間において顔認識処理部が認識した人物ごとに、顔表情評価部７０に、顔表情強度値の最大値ｉｎｔ_ｍａｘと最小値ｉｎｔ_ｍｉｎとを用いて、下記の式（６）によって顔表情強度値ｉｎｔを０から１００までの範囲内の値ｉｎｔ’に正規化してもよい。

また、第１実施形態から第４実施形態では、回帰分析部５０が実行する回帰分析処理として、線形回帰分析処理、ロジスティック回帰分析処理、およびサポートベクトル回帰分析処理を示した。回帰分析部５０が実行する回帰分析処理は、これらの例に限定されることなく、他の回帰分析処理も適用できる。例えば、回帰分析部５０は、ニューラルネットワークによる学習処理を回帰分析処理に適用してもよい。

また、第１実施形態から第５実施形態において、顔表情解析装置１を、顔表情解析モードのみで動作する装置としてもよい。具体的に、顔表情解析装置１から、顔表情強度教師値取得部２０と、回帰分析部５０と、モード切替部９０とを削除し、顔表情解析処処理のみを実行する装置としてもよい。この場合、回帰モデル記憶部６０には、顔表情種別ごとに最適化されたパラメータ値があらかじめ記憶される。

また、上述した各実施形態における顔表情解析装置１の一部の機能、例えば、平滑化処理部８０の機能をコンピュータで実現するようにしてもよい。この場合、その機能を実現するための顔表情評価結果平滑化プログラムをコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録された顔表情評価結果平滑化プログラムをコンピュータシステムに読み込ませて、このコンピュータシステムが実行することによって実現してもよい。なお、このコンピュータシステムとは、オペレーティング・システム（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ；ＯＳ）や周辺装置のハードウェアを含むものである。また、コンピュータ読み取り可能な記録媒体とは、フレキシブルディスク、光磁気ディスク、光ディスク、メモリカード等の可搬型記録媒体、コンピュータシステムに備えられる磁気ハードディスクやソリッドステートドライブ等の記憶装置のことをいう。さらに、コンピュータ読み取り可能な記録媒体とは、インターネット等のコンピュータネットワーク、および電話回線や携帯電話網を介してプログラムを送信する場合の通信回線のように、短時間の間、動的にプログラムを保持するもの、さらには、その場合のサーバ装置やクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持するものを含んでもよい。また上記の顔表情評価結果平滑化プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせにより実現するものであってもよい。

以上、本発明の実施の形態について図面を参照して詳述したが、具体的な構成はその実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計等も含まれる。

１顔表情解析装置
１０画像データ取得部
２０顔表情強度教師値取得部
３０顔領域抽出部
３１顔領域検出部
３２解析領域決定部
４０画像特徴量計算部
５０回帰分析部
６０回帰モデル記憶部
７０顔表情評価部
８０平滑化処理部（顔表情評価結果平滑化装置）
８１顔表情強度値取得部
８２顔表情強度値平滑化処理部
８３顔表情種別平滑化処理部
９０モード切替部

Claims

顔画像に基づき顔表情種別ごとに得られた複数の顔表情強度値を、フレームごとに取り込む顔表情強度値取得部と、
前記顔表情強度値取得部が取り込んだ複数フレーム分の顔表情強度値を参照し、前記顔表情種別ごとの前記複数フレームの顔表情強度値に基づく合計値に基づいて、前記複数フレームに対応する代表顔表情強度値を計算する顔表情強度値平滑化処理部と、
を備えることを特徴とする顔表情評価結果平滑化装置。
前記合計値は、前記顔表情種別ごとの、前記複数フレーム分の顔表情強度値の合計値である、
ことを特徴とする請求項１記載の顔表情評価結果平滑化装置。
前記合計値は、前記複数フレームのそれぞれにおける最大の顔表情強度値の個数を顔表情種別ごとに計数して得た合計値である、
ことを特徴とする請求項１記載の顔表情評価結果平滑化装置。
前記顔表情強度値平滑化処理部は、前記複数フレーム内における各フレームの位置に応じた重み付けをして前記合計値を計算する、
ことを特徴とする請求項２または３いずれか記載の顔表情評価結果平滑化装置。
前記顔表情強度値平滑化処理部が求めた、前記顔表情種別ごとの合計値のうち最大の合計値に対応する顔表情種別を、前記複数フレームに対応する顔表情の分類結果として選出する顔表情種別平滑化処理部、
をさらに備えることを特徴とする請求項１〜４いずれか一項記載の顔表情評価結果平滑化装置。
前記顔表情強度値平滑化処理部は、前記複数フレームよりも少ないフレーム数をシフト量とし、前記複数フレームを前記シフト量だけ時間方向にずらす、
ことを特徴とする請求項１〜５いずれか一項記載の顔表情評価結果平滑化装置。
コンピュータを、
顔画像に基づき顔表情種別ごとに得られた複数の顔表情強度値を、フレームごとに取り込む顔表情強度値取得部と、
前記顔表情強度値取得部が取り込んだ複数フレーム分の顔表情強度値を参照し、前記顔表情種別ごとの前記複数フレームの顔表情強度値に基づく合計値に基づいて、前記複数フレームに対応する代表顔表情強度値を計算する顔表情強度値平滑化処理部と、
として機能させるための顔表情評価結果平滑化プログラム。