JP2009098901A

JP2009098901A - 表情検出方法及び装置及びプログラム

Info

Publication number: JP2009098901A
Application number: JP2007269458A
Authority: JP
Inventors: Uwe Kowalik; ウーヴェコヴァリク; Kota Hidaka; 浩太日高; Yukinobu Taniguchi; 行信谷口; Takeshi Irie; 豪入江
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 2007-10-16
Filing date: 2007-10-16
Publication date: 2009-05-07

Abstract

【課題】ホームビデオカメラで撮影された一般のノイズ成分なども存在する動画像においても、精度良く表情を検出する。
【解決手段】本発明は、動画像を入力し、動画像から人物の顔画像を検出し、顔画像領域から鼻の先端、口角の位置を特徴点として抽出し、鼻の先端を基準とした時の、口角の左右の位置との角度を計測して特徴量とし、角度の時間変化を求め、前記時間変化から平衡状態からの立ち上がり状態、最大角度情報、平衡状態への立ち下がり状態の３状態に分割することで、笑い状態の開始から終了までの連続的な変化を捕らえられることで笑い状態を検出する。
【選択図】図１

Description

本発明は、表情検出方法及び装置及びプログラムに係り、特に、動画像の中から、人物の笑い状態を検出するための表情検出方法及び装置及びプログラムに関する。

顔の表情を検出するための技術として、Facial Action Coding System(FACS)が知られている。FACSでは、Action Unit、すなわち、顔の特徴点を動的に観察することにより、その変化を抽出し、顔の表情を記述するものである（例えば、非特許文献１，２，３参照）。

また、顔面全体にわたって筋肉の微少な動きを計測し、その時間的変化をパターン化し、そのパターンに基づいて、感情を表す表情の認識を行う技術がある（例えば、特許文献１参照）。

また、顔画像の眉毛、両目、唇の形状を特徴領域として認識し、これらを追跡することで表情認識する手法が提案されている（例えば、非特許文献４参照）。
特許第３０９８２７６号公報 Paul Ekman:Facial Expression and Emotion., American Psychologist, Volume 48, Issue 4, April 1993, pp.384-392. Ekman P., Keltner D.: Universal facial expressions of emotion. In: U. Segerstrale & P. Molnar (Eds.). Nonverbal Communication (pp. 27-46), Mahwah NJ: LEA (1997). the FACS (http://face-and-emotion.com/dataface/facs/description. jsp). Michael J. Black, Yaser Yacoob: Tracking and Recognizing Rigid and Non-Rigid Facial Motions using Local Parametric Models of Image Motion, Fifth International Conference on Computer Vision, June 1995, pp. 374-381.

しかしながら、上記従来の非特許文献１〜３に提案されている技術は、鮮明な画像群から表情認識することができても、例えば、ホームビデオなどで撮影されるような、ノイズ成分が存在する一般の動画像から表情を認識する方法が示されているわけではない。

また、FACSでは、Action Unit検出において、学習アルゴリズムに基づく分類器（SVM、ニューラルネットなど）を用いていることから、大量の学習データが必要になり、学習に時間が必要となり、低コストで表情を認識することができない。

また、非特許文献４の技術では、ノイズ成分が存在する一般の動画像から特徴領域を精度よく認識することが困難であり、さらに複数特徴領域を持つことも鑑みると、本発明で対象とする動画像から表情認識することには適応できない。

本発明は、上記の点に鑑みなされたもので、ホームビデオカメラで撮影された一般のノイズ成分なども存在する低品質な動画像からでも、精度良く表情を検出することが可能な表情検出方法及び装置及びプログラムを提供することを目的とする。

本発明（請求項１）は、表情検出装置において入力された動画像から顔の表情を検出するための表情検出方法であって、
状態検出手段が、入力手段から入力された動画像から、人物の顔を抽出し、その中の鼻の先端の位置及び左右口角の位置がなす角度の変化から笑い状態を検出する検出ステップを行う。

また、本発明（請求項２）は、検出ステップにおいて、
角度の変化から、最大角度状態、平衡状態から最大角度状態への立ち上がり状態、最大角度状態から平衡状態への立ち下がりの３状態である部分を検出するステップと、
平衡状態から最大角度状態への立ち上がり状態が開始してから最大角度状態を経て最大角度状態から平衡状態への立ち下がり状態が終了するまでを笑い状態として検出するステップと、を行う。

また、本発明（請求項３）は、検出ステップにおいて、
左右口角の位置の中心と鼻の先端の位置とを結んだ線に対して、該左右口角の位置が対称である場合には笑い状態とし、非対称の場合には笑い状態ではないとするステップを更に行う。

図１は、本発明の原理を説明するための図である。

本発明（請求項４）は、入力された動画像から顔の表情を検出するための表情検出装置であって、
動画像を入力する入力手段１０と、
動画像から人物の顔画像を検出する顔画像領域抽出手段２０と、
顔画像領域から鼻の先端、口角の位置を特徴点として抽出し、特徴点記憶手段３５に格納する特徴点抽出手段３０と、
特徴点記憶手段３５から鼻の先端、口角の位置を取得して、該記鼻の先端を基準とした時の、該口角の左右の位置との角度を計測して特徴量として特徴量記憶手段４５に格納する特徴量抽出手段４０と、
特徴量記憶手段４５に格納された特徴量を追跡して笑い状態を検出する笑い状態検出手段５０と、を有する。

また、本発明（請求項５）は、請求項４の笑い状態検出手段５０において、
特徴量抽出手段４０で得られた角度の時間変化を求め、時間変化から平衡状態からの立ち上がり状態、最大角度情報、平衡状態への立ち下がり状態の３状態に分割することで、笑い状態の開始から終了までの連続的な変化を捕らえられることで笑い状態を検出する手段を含む。

また、本発明（請求項６）は、請求項４の特徴量抽出手段４０において、
口角の左右の位置の中心点を求め、該中心点と鼻の先端とを結んだ基準線に対して、該口角の左右の位置状態が対称であるかを判断することにより、笑い状態であるかを検出する手段を更に有する。

本発明（請求項７）は、入力された動画像から顔の表情を検出するための表情検出装置であって、
動画像を入力する入力手段と、
動画像から人物の顔領域を検出する顔画像領域抽出手段と、
顔画像領域から鼻の先端、口角の位置を特徴点として抽出し、特徴点記憶手段に格納する特徴点抽出手段と、
特徴点記憶手段から鼻の先端と口角の左右の位置を取得して、該鼻の選択を基準とした時の、該口角の左右の位置との角度を計測して特徴量とする特徴量抽出手段と、
特徴量を追跡して笑い状態を検出する笑い状態検出手段と、を有する。

また、本発明（請求項８）は、請求項７の笑い状態検出手段において、
特徴量抽出手段で得られた角度の時間変化を求め、該時間変化に基づいて、平衡状態からの立ち上がり状態、最大角度状態、平衡状態への立ち下がり状態の３状態を分割し、笑い状態の開始から終了までの連続的な変化をとらえることで笑い状態を検出する手段を含む。

また、本発明（請求項９）は、請求項７の特徴量抽出手段において、
口角の左右の位置の中心点を求め、該中心点と鼻の先端とを結んだ基準線に対して、口角の左右の位置状態が対称であるかを判断することにより、笑い状態であるかを検出する手段を更に有する。

本発明（請求項１０）は、請求項４乃至９のいずれか１項に記載の表情検出装置を構成する各手段としてコンピュータを機能させる表情検出プログラムである。

上記のように本発明によれば、動画像に対して、人物の顔領域から、鼻の先端、口角の左右の位置といった、特徴領域より安定して得られる特徴点であっても、鼻の先端を基準とした時の、口角の左右の位置との角度を計測して特徴量とし、特徴量を追跡することで、ノイズ成分が存在する低品質な動画像からでも、低コストで精度よく、人物の笑い状態を検出することが可能となる。

さらに、特徴量を追跡することで、平衡状態からの立ち上がり状態、最大角度状態、平衡状態への立ち下がり状態の３つの状態に分割し、笑い状態の開始から終了までの連続的な変化を捕らえることが可能となる。

さらに、口角の左右の位置の中心点を求め、これと鼻の先端とを結んだ基準線に対して、口角の左右の位置状態が対象であるかを判断することにより、笑い状態であるかを検出することができる。

以下、図面と共に本発明の実施の形態を説明する。

［第１の実施の形態］
図２は、本発明の第１の実施の形態における表示検出装置の構成を示し、図３は、本発明の第１の実施の形態における基本的な表情検出処理のフローチャートである。

同図に示す表示検出装置は、動画入力部１０、顔画像領域抽出部２０、特徴点抽出部３０、特徴量抽出部４０、笑い状態検出部５０、特徴点記憶部３５、特徴量記憶部４５から構成される。

ステップ１）動画入力部１０は、動画を入力する。

ステップ２）顔画像領域抽出部２０は、Adaboost学習によるHaar-like特徴を用いた識別器を用いるものとし、入力された動画像から人物の顔画像領域を抽出する。ここで、多数の弱識別器をカスケード型とし、該カスケード型識別器を識別対象の大きさ、位置を変化させて適用し、顔画像領域を特定する。これについては、例えば、文献「Paul Viola, Michael J. Jones. Robust Real-Time Face Detection. International Journal of Computer Vision. Vol. 57, No2 pp.137-154 (2004)」などに記載されている。

ステップ３）特徴点抽出部３０は、顔画像領域抽出部２０で抽出された顔画像領域から鼻の先端、口角の左右の位置を特徴点として抽出し、特徴点記憶部３５に格納する。特徴点抽出処理を行う際に、事前処理として、図４に示す黒抜き丸で示す２５点の特徴点を抽出している。特徴点は、輪郭、目玉、眉毛、鼻、口に関連して割り振っている。この特徴点の抽出方法としては、例えば、文献「Lades M., Vorbruggen J., Buhmann J., Lange J., Konen W., von der Malsburg C., Wurtz R. Distortion Invariant Object Recognition in the Dynamic Link Architecture. IEEE Trans. Computers, Vol. 42, No. 3 pp.300-311(1993)」、「Wiskott L., Fellous J.-M., Kruger N., von der Malsburg C. Face Recognition by Elastic Bunch Graph Matching. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 19. Issue 7, pp. 775-779 (1997)」等の公知の方法を用いるものとする。これらの公知技術を参照することにより、例えば、人物が顔を動かすなどの行為を行ったとしても安定して、図４に示す２５点の特徴を抽出可能である。この２５点の特徴のうち、図５に示す二重丸の３点（ｈ，ｉ，ｊ）のみを抽出し、残りの点は必要としない。これらは、鼻の先端、口角の左右の位置に相当する点である。また、２５点の特徴を抽出することなく、必要な３点のみを直接抽出してもよい。このような方法により、不要な点の抽出処理を省くことができる。

ステップ４）特徴量抽出部４０は、鼻の先端を基準としたときの口角の左右位置との角度を計測して特徴とする。図６の例では、鼻の先端ｈを基準としたときの左右の口角の位置ｉ，ｊの角度αを計測し、特徴量とし、特徴量記憶部４５に格納する。

ステップ５）笑い状態検出部５０は、特徴量記憶部４５から特徴量（角度α）を読み出して、各度αの時間変化を求め、時間変化から平衡状態からの立ち上がり状態、最大角度状態、平衡状態への立ち下がり状態の３状態に分割し、笑い状態からの開始から終了までの連続的な変化を捉える。具体的には、角度の特徴量をαとしたときのその時間履歴を図７のように計測する。更に、αの時間履歴から、同図に示すように、平衡状態からの立ち上がり、最大角度、平衡状態への立下りの３状態に分割する。実際には、人間が平衡状態にあるときに必ずしも口の形状が閉まっている状態ではないことが想定される。また、通常会話しているときも口の形状は開閉状態となる。このような場合においても、笑っているか否かを判断するためには、例えば、特徴量αの時間変化を観測すればよい。具体的には、図８に示すように、特徴量の時間微分ｄα／ｄｔと、２つの閾値を用いる。２つの閾値については、高閾値「thupper」と低閾値「thlower」と呼ぶこととする。この閾値は静的に設定されるものでもよく、後述する方法により動的に設定されるものであってもよい。

以下に、笑い状態検出部５０における、３状態に分割する方法について説明する。

平衡状態からの立ち上がり状態については、その開始時刻を時間微分ｄα／ｄｔが高閾値thupperを超えた時刻の時間微分ｄα／ｄｔから時間的に前方向を観測し、最短時間でｄα／ｄｔ＝０となる時刻ｔ０とする。一方、終了時刻は、時間微分ｄα／ｄｔが高閾値thupper越えた時刻の時間微分ｄα／ｄｔから時間的に後ろ方向を観測し、最短時間でｄα／ｄｔ＝０となる時刻ｔ１とする。この時刻ｔ１は最大角度状態の開始時刻にも相当する。

平衡状態への立下り状態については、最大角度状態以降で、低閾値thlowerを下回った時刻の時間微分ｄα／ｄｔから時間的に前方向を観測し、最短時間でｄα／ｄｔ＝０となる時刻ｔ２を開始時刻とする。この時刻ｔ２は、最大角度状態の終了時刻にも相当する。一方、開始時刻は、時間微分ｄα／ｄｔが低閾値thlowerを下回った時刻の時間微分ｄα／ｄｔから時間的に後ろ方向を観測し、最短時間でｄα／ｄｔ＝０となる時刻ｔ３とする。

前述のように、立上がり状態の開始時刻から平衡状態への立下り終了時刻までが一連の笑い状態として判別される。

次に、前述の高閾値thupperと低閾値thlowerを動的に設定する方法について述べる。

例えば、高閾値と低閾値の標準偏差と平均値をそれぞれσupperとμupper、σlowerとμlowerとした場合、
thupper＝ａ・σupper＋ｂ・μupper 式（１）
thlower＝ｃ・σlower＋ｄ・μlower 式（２）
としてもよい。ここで、ａ，ｂ，ｃ，ｄは、係数で任意の値とし、例えば、予め、試験用動画像を用意し、統計的な学習工程を経て設定するものであってもよい。具体的には、人手により本手法による笑い状態の上記の３状態の開始時刻と終了時刻の正解集合を設定し、これと本発明によって抽出された上記の３状態の開始時刻と終了時刻との時間差を最小限とするようにａ，ｂ，ｃ，ｄを設定してもよい。

人間は、発話を一切していない状態においても口の形状が微小に変化していることが想定される。例えば、唇を噛みしめたり、つばを飲み込む動作を考えるだけでもこれらは容易に想像できる。これらの微小な変化が、角度αに影響する。また、笑いを含む発声行為についても、人間は規則的に口を開閉するもではなく、ある程度の不規則さを伴って開閉することが想定される。いわゆるこのようなノイズの影響を軽減させるために、例えば、検出した角度にメディアンフィルタを適用する対策を施してもよい。

また、本発明による時間微分ｄα／ｄｔでは、笑い状態と、一般の発声と区別が付かない場合も想定される。例えば、illegalと発声した場合、"ille"の部分でｄα／ｄtが増加し、"gal"の部分でｄα／ｄｔが減少するため、笑い状態と似ている挙動となる可能性がある。そのような場合には、例えば、最大角度状態の時間に着目し、t2−t1＞ttimeなどの時間的な閾値ttimeを設定することで問題を回避可能となる。

当該笑い状態検出部５０は、上記の処理により、時間、角度α、時間微分ｄα／ｄｔからなる情報、または、３状態に分割された時刻の情報を出力する。

これまで、本発明の基本的な例を述べてきたが、例えば、角度αのみに着目している場合、例えば、引きつった笑いや、いやみを発言するときなどに頻出する。鼻の稜線を基準線としたときの左右非対称の状態においても笑い状態と判別する可能性がある。このような問題に対しては、図９に示すように、口角の左右の位置ｉ，ｊを結ぶ線分の中心と、鼻の先端ｈとを結ぶ線分を基準線とし、基準線に対する左右の口角位置との角度をそれぞれ、α１、α２としてこれらの値の差を考慮することで対象であるか否かを判定すればよい。

例えば、それぞれの時間微分ｄα１／ｄｔ、ｄα２／ｄｔの時間履歴を測定し、これらの相関係数を求め、例えば、０．５以上であるときに対象としてもよい。また、それぞれの時間微分がｄα１／ｄｔ＞０、ｄα２／ｄｔ＞０となる時刻をｔｓ１、ｔｓ２としたときの│ｔｓ１−ｔｓ２│に閾値を設定するなどしてもよい。

なお、上記の表情検出装置の構成要素の各動作をプログラムとして構築し、表情検出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。

また、構築されたプログラムを、ハードディスクや、フレキシブルディスク・ＣＤ−ＲＯＭ等の可搬記憶媒体に格納し、表情検出装置として利用されるコンピュータにインストールする、または、配布することが可能である。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

本発明は、動画像から人物の表情を検出するための技術に適用可能である。

例えば、人間Ａと人間Ｂの視聴状況を動画像として取得し、人間Ａが、あるお笑い番組を視聴しているときに、楽しいシーンで当該人間Ａが笑ったことを検知し、さらに、別の人間Ｂが同様のシーンで笑ったことを検知した場合、人間ＡとＢは同じシーンで笑ったため感性的に近い人間であると判断し、インターネット上のコミュニティサイトで友達になれるように誘導するようなサービスに適用することが可能である。

また、視聴率調査会社等で視聴率として、単にテレビ画面が表示されているか否かにより取得しているが、本発明を視聴率調査に適用することで、人間Ａと人間Ｂがどのシーンで笑ったかを把握することが可能となる。

本発明の原理構成図である。本発明の一実施の形態における表情検出装置の構成図である。本発明の一実施の形態における基本的な表情検出処理のフローチャートである。本発明の一実施の形態における特徴点抽出の事前準備として抽出した特徴点の例である。本発明の一実施の形態における特徴点の例である。本発明の一実施の形態における特徴量の例である。本発明の一実施の形態における笑い状態を３状態に分割した模式図である。本発明の一実施の形態における笑い状態を３状態に分割する方法を示した模式図である。本発明の一実施の形態における左右対称性を考慮して笑い状態を抽出するために用いる特徴量である。

符号の説明

１０入力手段、入力部
２０顔画像領域抽出手段、顔画像領域抽出部
３０特徴点抽出手段、特徴店抽出部
３５特徴点記憶手段、特徴点記憶部
４０特徴量抽出手段、特徴量抽出部
４５特徴量記憶手段、特徴量記憶部
５０笑い状態検出手段、笑い状態検出部

Claims

表情検出装置において入力された動画像から顔の表情を検出するための表情検出方法であって、
状態検出手段が、入力手段から入力された動画像から、人物の顔を抽出し、その中の鼻の先端の位置及び左右口角の位置がなす角度の変化から笑い状態を検出する検出ステップを行うことを特徴とする表情検出方法。
前記検出ステップにおいて、
前記角度の変化から、最大角度状態、平衡状態から最大角度状態への立ち上がり状態、最大角度状態から平衡状態への立ち下がりの３状態である部分を検出するステップと、
前記平衡状態から最大角度状態への立ち上がり状態が開始してから最大角度状態を経て前記最大角度状態から平衡状態への立ち下がり状態が終了するまでを笑い状態として検出するステップと、
を行う請求項１記載の表情検出方法。
前記検出ステップにおいて、
左右口角の位置の中心と鼻の先端の位置とを結んだ線に対して、該左右口角の位置が対称である場合には笑い状態とし、非対称の場合には笑い状態ではないとするステップを更に行う請求項１または２記載の表情検出方法。
入力された動画像から顔の表情を検出するための表情検出装置であって、
動画像を入力する入力手段と、
前記動画像から人物の顔画像を検出する顔画像領域抽出手段と、
前記顔画像領域から鼻の先端、口角の位置を特徴点として抽出し、特徴点記憶手段に格納する特徴点抽出手段と、
前記特徴点記憶手段から前記鼻の先端、前記口角の位置を取得して、該記鼻の先端を基準とした時の、該口角の左右の位置との角度を計測して特徴量として特徴量記憶手段に格納する特徴量抽出手段と、
前記特徴量記憶手段に格納された前記特徴量を追跡して笑い状態を検出する笑い状態検出手段と、
を有することを特徴とする表情検出装置。
前記笑い状態検出手段は、
前記特徴量抽出手段で得られた前記角度の時間変化を求め、前記時間変化から平衡状態からの立ち上がり状態、最大角度情報、平衡状態への立ち下がり状態の３状態に分割することで、笑い状態の開始から終了までの連続的な変化を捕らえられることで笑い状態を検出する手段を含む
請求項４記載の表情検出装置。
前記特徴量抽出手段は、
前記口角の左右の位置の中心点を求め、該中心点と前記鼻の先端とを結んだ基準線に対して、該口角の左右の位置状態が対称であるかを判断することにより、笑い状態であるかを検出する手段を更に有する
請求項４また５記載の表情検出装置。
入力された動画像から顔の表情を検出するための表情検出装置であって、
動画像を入力する入力手段と、
前記動画像から人物の顔領域を検出する顔画像領域抽出手段と、
前記顔画像領域から鼻の先端、口角の位置を特徴点として抽出し、特徴点記憶手段に格納する特徴点抽出手段と、
前記特徴点記憶手段から前記鼻の先端と前記口角の左右の位置を取得して、該鼻の選択を基準とした時の、該口角の左右の位置との角度を計測して特徴量とする特徴量抽出手段と、
前記特徴量を追跡して笑い状態を検出する笑い状態検出手段と、
を有することを特徴とする表情検出装置。
前記笑い状態検出手段は、
前記特徴量抽出手段で得られた前記角度の時間変化を求め、該時間変化に基づいて、平衡状態からの立ち上がり状態、最大角度状態、平衡状態への立ち下がり状態の３状態を分割し、笑い状態の開始から終了までの連続的な変化をとらえることで笑い状態を検出する手段を含む
請求項７記載の表情検出装置。
前記特徴量抽出手段は、
前記口角の左右の位置の中心点を求め、該中心点と前記鼻の先端とを結んだ基準線に対して、前記口角の左右の位置状態が対称であるかを判断することにより、前記笑い状態であるかを検出する手段を更に有する
請求項７または８記載の表情検出装置。
請求項４乃至９のいずれか１項に記載の表情検出装置を構成する各手段としてコンピュータを機能させる表情検出プログラム。