JP2009289210A

JP2009289210A - 重要物体認識装置および重要物体認識方法ならびにそのプログラム

Info

Publication number: JP2009289210A
Application number: JP2008143743A
Authority: JP
Inventors: Junei Kin; 順暎金; Masakatsu Ota; 昌克太田; Mitsuo Teramoto; 光生寺元
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 2008-05-30
Filing date: 2008-05-30
Publication date: 2009-12-10

Abstract

【課題】抽出対象の物体を事前に定義する必要無く容易に任意の物体の画像からの抽出を行うことのできる重要物体認識装置を提供する。
【解決手段】動画像中に存在する重要な物体を抽出し、その物体を利用した映像の要約である代表画像を作成する。また撮影した動画像の情報から、ユーザの周囲に存在する重要物体を認識し、物体の状況の把握し、不注意時等の注意喚起をユーザに対して行なう。
【選択図】図１

Description

本発明は、画像情報に存在する顕著な物体を自動的に抽出することのできる重要物体認識装置および重要物体認識方法ならびにそのプログラムに関する。

従来、ユーザの置かれた状況を自動的に判断し、その状況に合わせたサービスを提供するための技術開発はユビキタスコンピューティングにおける需要事項の一つであった。そして現在、「状況」に対する計測器の乏しさから、研究の大半が状況を特定する物体の位置や時間、あるいはその組合せから推定される当該物体のプレゼンス情報などの情報を採用して「状況」を判定するなどしている。しかしながら、場所と状況の対応関係は１対１ではない。例えばワンルームマンションでは、同じ室内において、人が食事を取り、睡眠し、あるいは娯楽に興じるなど、人の状況は多様に変化する。従って、高度な「状況」の判断を抽出することが求められている。
なお、近年、画像処理技術の発達に伴い、動画像中から人物や自動車などを自動的に検出する技術が特許文献１に開示されている。この特許文献１の技術には、動画像中に搭乗する人物を自動的に抽出し、顧客データベースに利用するシステムが開示されている。
また、大量の画像と単語列との組を用意し、その関係を学習することで画像辞書を作成する技術が非特許文献１に開示されている。
特開２００４−２５８７６４号公報中山英樹、外３名、「画像・単語間概念対応の確率構造学習を利用した超高速画像認識・検索方法」、社団法人電子情報通信学会、信学技報、ＰＲＭＵ２００７−１４７，ｐｐ．６５−７０，２００７年１２月

ここで、上述の特許文献１の技術は、人物の顔など、対象を想定してのテンプレートマッチングを行なっている。テンプレートマッチングは検出したい対象が明確な場合には非常に有効であるが、検出対象を他の一般的な物体に拡張することは不可能である。例えば大自然や街中の雑踏の風景など、主となる物体を予め定義できない場合には利用することができない。
また上述の非特許文献１の技術は、画像と単語列との組を作成する労力が大きいため、大量の異なる物体の自動抽出をそれぞれ行なうことは困難である。

そこでこの発明は、抽出対象の物体を事前に定義する必要無く容易に任意の物体の画像からの抽出を行うことのできる重要物体認識装置および重要物体認識方法ならびにそのプログラムを提供することを目的としている。

上記目的を達成するために、本発明は、物体抽出装置と重要度算出装置と学習装置とを備えた重要物体認識装置であって、前記物体抽出装置が、入力を受け付けた動画像中から所定の間隔で静止画像を抽出する静止画像抽出手段と、前記抽出した静止画像それぞれにおける特徴点の画像特徴量を算出する特徴量算出手段と、前記静止画像を画像断片アルゴリズムを用いて複数の画像断片に分割する画像分割手段と、前記静止画像それぞれについて前記分割によって得られた各画像断片を、前記算出した画像特徴量に基づいてクラスタリングし、それらクラスタリングされた各画像断片とその画像断片における特徴点における画像特徴量とを対応付けた画像断片毎特徴量情報を、前記クラスタリングの結果得られた画像断片のクラスタ毎に記憶部へ記録するクラスタ内画像断片特徴量算出手段と、を備え、前記重要度算出装置が、前記所定の間隔で抽出された各静止画像における各画素の顕著性の度合いを示す顕著性値を算出する顕著性値算出手段と、前記画像断片に対応する前記静止画像中の画素の前記顕著性値に基づいて、当該画像断片の重要度を算出する画像断片重要度算出手段と、前記動画像におけるユーザの注視点のデータと、前記画像断片の前記静止画像における座標とに基づいて、前記画像断片毎のユーザによる注視回数または注視時間を算出する注視情報算出手段と、を備え、前記学習装置が、前記クラスタ毎の重要度を、当該クラスタに属する前記画像断片の重要度に基づいて算出するクラスタ重要度算出手段と、前記クラスタ毎の注視回数または注視時間を、当該クラスタに属する前記画像断片の前記注視回数または注視時間に基づいて算出するクラスタ毎注視情報算出手段と、前記クラスタ毎の重要度と前記クラスタ毎の注視回数または注視時間とに基づいて、複数の前記クラスタが示す物体のうち重要物体を示すクラスタを特定する重要物体対応クラスタ特定手段と、を備えることを特徴とする重要物体認識装置である。

また本発明は、上述の重要物体認識装置が物体要約生成装置をさらに備え、当該物体要約生成装置は、前記静止画像それぞれにおける特徴点の画像特徴量に基づいて、前記各クラスタに属する画像断片の特徴点の画像特徴量を示すクラスタ毎特徴点リストを生成するクラスタ毎特徴点リスト生成手段と、前記各クラスタに属する画像断片それぞれの特徴点の画像特徴量に基づいて、閾値以上の割合で複数の異なる画像断片に存在する複数の特徴点を抽出する特徴点抽出手段と、前記抽出した複数の特徴点に基づいて、当該特徴点を持つ各画像断片を合成して代表画像を生成する代表画像生成手段と、を備えることを特徴とする。

また本発明は、上述の重要物体認識装置が要約表示装置をさらに備え、当該要約表示装置は、前記クラスタ毎の重要度に基づいて重要クラスタを判定し、当該重要クラスタと判定したクラスタの前記代表画像を表示部へ表示する代表画像表示手段を備えることを特徴とする。

また本発明は、上述の重要物体認識装置がユーザ嗜好解析装置をさらに備え、前記ユーザ嗜好解析装置は、前記クラスタ毎の重要度とその重要度の閾値とに基づいて、前記動画像中から所定の間隔で抽出した各静止画像において重要な画像断片が含まれているか否かを判定する重要画像断片判定手段と、前記クラスタ毎の注視回数と当該注視回数の閾値または注視時間と当該注視時間の閾値に基づいて、前記動画像中から所定の間隔で抽出した各静止画像において前記ユーザが注視する画像断片を判定する注視画像断片判定手段と、前記重要な画像断片と、前記ユーザが注視する画像断片とが異なる場合に、注意喚起情報を出力する注意喚起情報出力手段と、を備えることを特徴とする。

また本発明は、物体抽出装置と重要度算出装置と学習装置とを備えた重要物体認識装置における重要物体認識方法であって、前記物体抽出装置の特徴量算出手段が、入力を受け付けた動画像中から所定の間隔で静止画像を抽出し、前記物体抽出装置の特徴量算出手段が、前記抽出した静止画像それぞれにおける特徴点の画像特徴量を算出し、前記物体抽出装置の画像分割手段が、前記静止画像を画像断片アルゴリズムを用いて複数の画像断片に分割し、前記物体抽出装置のクラスタ内画像断片特徴量算出手段が、前記静止画像それぞれについて前記分割によって得られた各画像断片を、前記算出した画像特徴量に基づいてクラスタリングし、それらクラスタリングされた各画像断片とその画像断片における特徴点における画像特徴量とを対応付けた画像断片毎特徴量情報を、前記クラスタリングの結果得られた画像断片のクラスタ毎に記憶部へ記録し、前記重要度算出装置の顕著性値算出手段が、前記所定の間隔で抽出された各静止画像における各画素の顕著性の度合いを示す顕著性値を算出し、前記重要度算出装置の画像断片重要度算出手段が、前記画像断片に対応する前記静止画像中の画素の前記顕著性値に基づいて、当該画像断片の重要度を算出し、前記重要度算出装置の注視情報算出手段が、前記動画像におけるユーザの注視点のデータと、前記画像断片の前記静止画像における座標とに基づいて、前記画像断片毎のユーザによる注視回数または注視時間を算出し、前記学習装置のクラスタ重要度算出手段が、前記クラスタ毎の重要度を、当該クラスタに属する前記画像断片の重要度に基づいて算出し、前記学習装置のクラスタ毎注視情報算出手段が、前記クラスタ毎の注視回数または注視時間を、当該クラスタに属する前記画像断片の前記注視回数または注視時間に基づいて算出し、前記学習装置の重要物体対応クラスタ特定手段が、前記クラスタ毎の重要度と前記クラスタ毎の注視回数または注視時間とに基づいて、複数の前記クラスタが示す物体のうち重要物体を示すクラスタを特定することを特徴とする重要物体認識方法である。

また本発明は、重要物体認識装置のコンピュータを、入力を受け付けた動画像中から所定の間隔で静止画像を抽出する静止画像抽出手段、前記抽出した静止画像それぞれにおける特徴点の画像特徴量を算出する特徴量算出手段、前記静止画像を画像断片アルゴリズムを用いて複数の画像断片に分割する画像分割手段、前記静止画像それぞれについて前記分割によって得られた各画像断片を、前記算出した画像特徴量に基づいてクラスタリングし、それらクラスタリングされた各画像断片とその画像断片における特徴点における画像特徴量とを対応付けた画像断片毎特徴量情報を、前記クラスタリングの結果得られた画像断片のクラスタ毎に記憶部へ記録するクラスタ内画像断片特徴量算出手段、前記所定の間隔で抽出された各静止画像における各画素の顕著性の度合いを示す顕著性値を算出する顕著性値算出手段、前記画像断片に対応する前記静止画像中の画素の前記顕著性値に基づいて、当該画像断片の重要度を算出する画像断片重要度算出手段、前記動画像におけるユーザの注視点のデータと、前記画像断片の前記静止画像における座標とに基づいて、前記画像断片毎のユーザによる注視回数または注視時間を算出する注視情報算出手段、前記クラスタ毎の重要度を、当該クラスタに属する前記画像断片の重要度に基づいて算出するクラスタ重要度算出手段、前記クラスタ毎の注視回数または注視時間を、当該クラスタに属する前記画像断片の前記注視回数または注視時間に基づいて算出するクラスタ毎注視情報算出手段、前記クラスタ毎の重要度と前記クラスタ毎の注視回数または注視時間とに基づいて、複数の前記クラスタが示す物体のうち重要物体を示すクラスタを特定する重要物体対応クラスタ特定手段として機能させるためのプログラムである。

本発明によれば、動画像中に存在する重要な物体を抽出し、その動画像中に存在する代表的な物体に対応する代表画像を作成することが可能となる。また日常生活において撮影した動画像の情報から、ユーザの周囲に存在する重要物体を認識し、物体の状況の把握が可能となり、また不注意時等の注意喚起をユーザに対して行なうことができる。

以下、本発明の第１の実施形態による重要物体認識装置を図面を参照して説明する。
図１は第１の実施形態による重要物体認識装置の構成を示すブロック図である。
この図において、符号１は重要物体認識装置である。そして、重要物体認識装置１は画像撮影装置１１、物体抽出装置１２、重要度算出装置１３、学習装置１４、記録装置１５を備えている。なお、これら画像撮影装置１１、物体抽出装置１２、重要度算出装置１３、学習装置１４、記録装置１５の各機能は一つのコンピュータ装置に備えられていてもよいし、複数のコンピュータ装置それぞれに分散されて互いにネットワークケーブル等で接続されることにより重要物体認識装置１を構成するようにしてもよい。

そして、画像撮影装置１１は、環境撮影部１１１、視線計測部１１２の各機能部を有し、また物体抽出装置１２は特徴点算出部１２１、領域抽出部１２２、物体学習部１２３の各機能部を有している。また重要度算出装置１３は、重要度算出部１３１、視線情報変換部１３２の各機能部を有し、また学習装置１４は重要度解析部１４１、視線情報解析部１４２、相関解析部１４３の各機能部を有している。

ここで、本発明の実施形態による重要物体認識装置１は、まず、事前に物体を定義されない状況において画像のみから特徴のある物体を学習する処理を行なう。本実施形態において学習とは重要な物体を抽出することを意味する。この学習する処理においては、まず物体抽出装置１２が、動画像をフレーム毎に分割し、特徴点算出部１２１において各フレームの特徴点を算出する。特徴点としては、１）特定のピクセルまたは部分に対して局所的に求まり、２）画像が細分化された後にも値が保持され、３）拡大縮小や回転等の影響を受けない、という性質のものであればどのようなものでもよい。
そして領域抽出部１２２が、輝度や彩度、エッジ情報などを元に、各フレームを単一の物体もしくは物体の一部を示す画像断片に分割する。
そして、物体学習部１２３は、領域抽出部１２２により得られた画像断片を、画像断片中に含まれる特徴点を元にクラスタリングする。クラスタリングアルゴリズムには階層的クラスタリングなど、クラスタ数を定義しなくてよいものを利用する。

ここで、それぞれのクラスタは単一の物体もしくは物体の一部を示す画像集合である。例えば椅子であれば背もたれと肘掛がそれぞれ別の物体として分かれて学習される可能性がある。また本と本棚は異なる物体であるが、環境を認識する上ではそれらをまとめて本棚という１つの物体として認識した方が良い場合もある。これら物体内もしくは物体間の階層構造を吸収するため、クラスタ内に含まれる画像断片の共起関係を利用してクラスタを階層的に統合する。

図２は第１の実施形態による重要物体認識装置の処理フローを示す図である。
次に、第１の実施形態による重要物体認識装置の処理フローについて説明する。
まず、重要物体認識装置の、画像撮影装置１１においては、環境撮影部１１１がユーザの周囲の環境を撮影し（ステップＳ１）、視線計測部１１２がユーザの注視位置を計測する（ステップＳ２）。ここで、例えば環境撮影部１１１は具体的にはヘッドマウント型のビューカメラ等であり、これをユーザが頭部に装着する。また、ユーザの眼球運動を撮影するアイカメラを同時に装着し、予め眼球の動きとビューカメラにおける座標との対応関係を学習しておくことで、視線計測部１１２が、ユーザのその時々の撮影画像における注視点を算出することができる。そして、ビューカメラが撮影した各フレームの画像と、アイカメラが撮影した各時間における注視点の情報とが記録装置１５の取得データ記憶部に時間の経過と共に順次記録される。

そして、物体抽出装置１２の特徴点算出部１２１（静止画像抽出手段、特徴量算出手段）は、画像撮影装置１１より受信した動画像のデータを、フレーム毎に分割し、ある一定のインターバルにより解析対象となる静止画像を抽出する（ステップＳ３）。そして、特徴点算出部１２１は、抽出したそれぞれの静止画像の局所特徴点における特徴量を算出して（ステップＳ４）、静止画像ごとにその特徴点の特徴量を示すリストを記録装置１５の静止画像毎特徴点リスト記憶部へ記録する。この局所特徴量は、静止画像が細分化された後にも当該細分化後の各画像にも当該特徴量の値が保持されるようなものであれば良く、例えば、ロボットビジョンやパノラマ画像生成などに広く利用されている二次元不変特徴量であるＳＩＦＴ特徴量等の公知な手法などが利用できる。ＳＩＦＴ特徴量は画像内の特徴的なピクセルに対し、１２８次元の数値ベクトルとして与えられる。

図３はＳＩＦＴ特徴量のデータ例を示す図である。
この図においてはｎフレーム毎に切り出された静止画像と、その画像中に存在する特徴点のリストを示している。ＳＩＦＴ特徴量の算出においては、特徴点は画像中において数百点〜数千点特定され、それぞれの特徴点において、１２８次元の数値ベクトルが与えられる。特徴点のリストにおける左上の数字列はその特徴点の画像の左上を原点としたｘ座標，ｙ座標を示している（最初の特徴点においてはｘ座標１３６．１５、ｙ座標５００．７０と記載）。なおＳＩＦＴ特徴量の算出手法は「D. G. Lowe,“Distinctive image features from scaleinvariant keypoints”, International Journal of Computer Vision, 60(2), pp. 91-110 (2004).< http://citeseer.ist.psu.edu/cache/papers/cs/30631/http:zSzzSzwww.cs.ubc.cazSz~lowezSzpaperszSzijcv04.pdf/lowe04distinctive.pdf >」などを利用する。

そして、物体抽出装置１２の領域抽出部１２２（画像分割手段）は、輝度や彩度、エッジ情報（例えば画像中において輝度や彩度が閾値以上に大きく異なる箇所の連続する画素による線分）などを元に、画像ピラミッド法や平均値シフト法、watershedアルゴリズム等を用いて、抽出された静止画像を、当該静止画像における単一の物体もしくは物体の一部を示す画像断片に分割する（ステップＳ５）。

図４は画像断片の一例を示す図である。
この図が示すように、領域抽出部１２２は、フレーム毎に切り出された静止画像を、単一の物体もしくは物体の一部を示す画像断片に分割している。

次に、物体学習部１２３（クラスタ内画像断片特徴量算出手段）は、領域抽出部１２２より得られた画像断片を、画像断片中に含まれる特徴点を元にクラスタリングする（ステップＳ６）。このクラスタリングアルゴリズムは、公知手法である階層的クラスタリング等を用いればよい。なお、この階層的クラスタリングにおいて、画像断片ａ，ｂ間の距離Ｄ（ａ，ｂ）は、ＳＩＦＴ特徴点を用いた場合、下記式（１）のように定義することができる。

但し、式（１）においてｎは画像断片ａと画像断片ｂの中で一致した特徴点の数、ｎＡｌｌ_ａ，ｎＡｌｌ_ｂはそれぞれ画像断片ａ，ｂが持つ特徴点の個数、ａ_ｉ，ｂ_ｉは画像断片ａ，画像断片ｂにおいて一致したｉ番目の組の特徴点、Ｄ（ａ_ｉ，ｂ_ｉ）はａ_ｉ，ｂ_ｉの特徴ベクトルのユークリッド距離を表す。

ここで対応する特徴点の組は、
１）画像断片ａ，ｂにおける全ての特徴点の組についてユークリッド距離を求め、閾値以下の距離の組を候補組とする。
２）候補組中の任意の３組の特徴点のユークリッド距離（ｘ_１，ｙ_１），（ｘ_２，ｙ_２），（ｘ_３，ｙ_３）についてｘ_１からｙ_１へ、ｘ_２からｙ_２へ、ｘ_３からｙ_３へ変換する単一のアフィン変換が存在するとき、この３組の特徴点を対応する組とみなす。
ことによりクラスタリングの結果を生成することができる。

次に物体抽出装置１２の物体学習部１２３が、クラスタを階層的に統合する。上述のクラスタリングの処理において階層的クラスタリングを用いている場合には、そのクラスタリング結果をそのまま利用することができる。また、画像断片の共起関係を求め、閾値以上の割合で共に出現するクラスタを１つのクラスタに統合するという方法で統合することもできる。

図５はクラスタリングの処理概要を示す図である。
この図が示すように、２つの静止画像Ａ，Ｂからはそれぞれ特徴点のリストＡ，Ｂが特徴点算出部１２１によって生成されている。そして、その静止画像Ａ，Ｂそれぞれの画像断片の特徴点を比較して、上記手法により、クラスタリングを行なっている。なお物体学習部１２３は、クラスタリングの結果である、クラスタに属する各静止画像の画像断片の識別情報（ＩＤ）と、その特徴点とを対応付けたクラスタ内画像断片毎の特徴点リスト（画像断片毎特徴量情報）を、記録装置１５のクラスタ内画像断片毎特徴点リスト記憶部に記録する。

次に重要度算出装置１３が、画像撮影装置１１より入力を受けた画像および視線情報から、画像断片の重要度および画像断片に対応する物体の被注視時間をそれぞれ算出する。まず、重要度算出部１３１（顕著性値算出手段、画像断片重要度算出手段）が、物体抽出装置１２と同様に、抽出された静止画像に対して、顕著性ＭＡＰ（Saliency map）を生成し、当該静止画像の各ピクセルにおける顕著性の値を算出する。なお、顕著性ＭＡＰとは、画像において人の目の注意を引きやすい指標を算出するための技術であり、この顕著性ＭＡＰを算出するための理論について「C.Koch, S.Ullman “Shifts in selective visual attention: Towards the underlying neural circuitry” Human Neurobilogy Vol.4, pp.219-227, 1985.」に開示されており、また、その理論を計算機によって実装した技術が「Laurent Itti and Christof Koch.“Computational Modeling of visual Attention”Nature Neuroscience Review, Vol.2, pp.194-204, 2001.」に開示されている。そして、本実施形態においては、この文献に記述されている顕著性ＭＡＰの算出手法を用いている。ここで、人の視覚は輝度や色相が局所的に大きく変動する部分に引き付けられ易いという性質が知られている。そして、「Laurent Itti and Christof Koch.“Computational Modeling of visual Attention”Nature Neuroscience Review, Vol.2, pp.194-204, 2001.」の文献においては、１枚の画像からスケール（縮尺）の異なる複数の画像を生成し、それぞれの画像における各ピクセルについて輝度・色相及び輝度の変化方向を算出している。そして、異なるスケールの２枚の画像の組のそれぞれについて、対応するピクセルにおける輝度・色相及び輝度の変化方向の変化量の重み付き和を足し合わせ、その値をピクセルにおける顕著性値として算出している。

図６は画像断片の重要度の算出処理概要を示す図である。
顕著性ＭＡＰは、１枚の静止画像（カラー、モノクロ問わず）に対して１枚のグレースケールの画像の形で生成され、各ピクセルの輝度値（例えば、０〜２５５）がそのピクセルの重要度にあたる。そして、図４に示すように、フレーム毎に切り出された静止画像からグレースケールの画像を生成される。この画像において値が１に近い、つまり白に近い色の箇所が人の目の注意を引きやすい箇所となる。そして、重要度算出部１３１は、ある画像断片の各ピクセルに対して顕著性の値を算出すると、その最大値または平均を、当該画像断片の重要度として算出および出力する（ステップＳ７）。この出力においては、図６で示すように、各画像断片のＩＤと、その画像断片が属する静止画像のＩＤと、静止画像中において画像断片が割り当てられた番号と、その画像断片の重要度の値が対応付けられた表形式で出力される。

次に視線情報変換部１３２（注視情報算出手段）が、各静止画像に含まれる画像断片それぞれが、次のインターバル間隔によって静止画像が抽出されるまでの間に注視される回数を算出する。例えば、インターバル間隔が１５フレームである場合、時刻ｔから時刻ｔ＋１４における静止画像内の対応する画像断片の被注視回数を算出する（ステップＳ８）。ここで、アイカメラが撮影した各時間における注視点の情報が記録装置１５に記録されているので、視線情報変換部１３２は、そのアイカメラが撮影した各時間における注視点の情報により、インターバル間隔における１５フレームそれぞれの、ユーザの注視点を記録装置１５から読み取り、その注視点が画像断片の静止画像中の座標に対応するか否かによって、その画像断片を注視したかどうか判断して、被注視回数を算出すればよい。

図７は各フレームの静止画像における注視点と被注視回数の算出結果の一例を示す図である。
図７で示すように、視線情報変換部１３２は、記録装置１５に記録されているインターバル間隔における各１５フレームそれぞれのユーザの注視点を読み取り、その一覧を生成する。その一覧の例が左の表である。そして視線情報変換部１３２は、その注視点が画像断片の静止画像中の座標に対応するか否かによって、その画像断片を注視したかどうか判断して、画像断片のＩＤとその画像断片が属する静止画像のＩＤと、画像断片の静止画像における番号と被注視回数とを対応付けたデータを生成して、記録装置１５の画像断片毎被注視回数記憶部に記録する。

そして、次に学習装置１４が、物体抽出装置１２によって求められた画像断片およびクラスタリング結果の情報と、重要度算出装置１３によって算出された各画像断片の重要度と被注視回数の情報とを結合し、その相関を分析する。つまり、まず学習装置１４において、重要度解析部１４１（クラスタ重要度算出手段）が、クラスタ毎の重要度を算出する（ステップＳ９）。この重要度は、例えば、クラスタを構成する各画像断片の重要度の正規分布から大きく外れたものを取り除いた後の各重要度の値の平均値とする。そして、各クラスタのＩＤとそのクラスタに対して算出した重要度とそのクラスタを構成する各画像断片のＩＤとを対応付けたクラスタ重要度テーブルを生成して記録装置１５のクラスタ重要度テーブル記憶部に記録する。

図８はクラスタ毎重要度テーブルの一例を示す図である。
この図における左の表は、図６で示したような、重要度算出部１３１の算出した各画像断片に対する重要度を示す表である。そしてこの情報を用いて、学習装置１４が、右側の表であるクラスタ毎重要度テーブルを生成する。

また学習装置１４において、視線情報解析部１４２（クラスタ毎注視情報算出手段）が、クラスタ毎の被注視回数を算出する（ステップＳ１０）。クラスタ毎の被注視回数はユーザの特性や時間に大きく影響されるため、トレンド分析等の時系列解析的手法が必要となる。例えば、連続するシーン（インターバル間隔内の１５フレーム）における被注視回数の最大値を、クラスタを構成する各画像断片ごとに求め、その平均値、最大値、最小値、分散などの値を、当該クラスタの被注視回数と算出する。

図９はクラスタ毎被注視回数テーブルの一例を示す図である。
この図における左の表は、図７で示したような、視線情報変換部１３２の算出した各画像断片に対する被注視回数を示す表である。そしてこの情報を用いて、学習装置１４の視線情報解析部１４２が、右側の表であるクラスタ毎被注視回数テーブルを生成する。

また学習装置１４において、相関解析部１４３（重要物体対応クラスタ特定手段）が、重要度解析部１４１および視線情報解析部１４２で得られた結果（クラスタ毎重要度テーブル，クラスタ毎被注視回数テーブル）のうち、重要度、被注視回数ピーク値の平均値または最大値のいずれかが、予め定義された閾値以上であったクラスタを重要物体の画像断片を示すクラスタであると特定して記録装置１５の重要物体記憶部に記録する（ステップＳ１１）。

図１０は重要物体の画像断片を示すクラスタの一覧を示す図である。
この図が示すように、重要物体の画像断片を示すクラスタの一覧は、クラスタＩＤと、そのクラスタの重要度、被注視回数ピーク値の平均値、分散、最大値、最小値、クラスタに含まれる各画像断片を対応付けている。そして相関解析部１４３は、この一覧のデータを記録装置１５へ記録する。以上の処理により、第１の実施形態による重要物体認識装置の処理が終了する。

この第１の実施形態による処理によれば、事前に重要な物体を定義することなく、撮影した動画像から重要と思われる物体を検出することが可能となる。なお、上述の処理においては被注視回数を用いているが、ユーザが物体を注視した被注視時間を用いて、上記の処理を行なうようにしても良い。被注視時間は、各静止画像に含まれる画像断片それぞれが、次のインターバル間隔によって静止画像が抽出されるまでの間に注視される時間である。上述と同様に、例えば、インターバル間隔が１５フレームである場合、時刻ｔから時刻ｔ＋１４における静止画像内の対応する画像断片の被注視時間を算出する。アイカメラが撮影した各時間における注視点の情報が記録装置１５に記録されているので、視線情報変換部１３２は、そのアイカメラが撮影した各時間の合計を、その注視点が画像断片毎に算出すればよい。

図１１は第２の実施形態による重要物体認識装置の構成を示すブロック図である。
この図が示すように第２の実施形態による重要物体認識装置は、第１の実施形態の重要物体認識装置に、物体要約生成装置１６が備えられた構成となっている。この物体要約生成装置１６は、物体抽出装置１２および記録装置１５と接続されているものとする。なお、これら画像撮影装置１１、物体抽出装置１２、重要度算出装置１３、学習装置１４、記録装置１５、物体要約生成装置１６の各機能は一つのコンピュータ装置に備えられていてもよいし、複数のコンピュータ装置それぞれに分散されて互いにネットワークケーブル等で接続されることにより重要物体認識装置１を構成するようにしてもよい。そして物体要約生成装置１６は、特徴点学習部１６１と、代表画像生成部１６２の処理部を有している。

そして、第２の実施形態による重要物体認識装置においては、物体要約生成装置１６が、物体抽出装置１２によって算出された画像断片の各クラスタについて、閾値以上の割合で出現する特徴点の集合を生成し、その特徴点を元に画像断片を合成して、代表画像を作成する処理を行なう。

図１２は第２の実施形態による重要物体認識装置の処理フローを示す図である。
次に、第２の実施形態による重要物体認識装置の処理フローについて説明する。
図１の実施形態による重要物体認識装置の処理において、既に、物体抽出装置１２の処理によって各静止画像の特徴点リストが生成されている。物体要約生成装置１６の特徴点学習部１６１（クラスタ毎特徴点リスト生成手段、特徴点抽出手段）は、その各静止画像の特徴点リストを物体抽出装置１２より取得して（ステップＳ２１）、上述のクラスタリングの結果に基づき、各クラスタに属する画像断片の特徴点リスト（クラスタ毎特徴点リスト）を生成する（ステップＳ２２）。そして、物体要約生成装置１６の特徴点学習部１６１が、各クラスタそれぞれについて、クラスタに含まれる各画像断片の特徴点のうち、閾値以上の割合で複数の画像断片に存在する複数の特徴点を抽出する（ステップＳ２３）。

この特徴点の抽出処理は、第１の実施形態と同様に、
１）画像断片ａ，ｂにおける全ての特徴点の組についてユークリッド距離を求め、閾値以下の距離の組を候補組とする。
２）候補組中の任意の３組の特徴点のユークリッド距離（ｘ_１，ｙ_１），（ｘ_２，ｙ_２），（ｘ_３，ｙ_３）についてｘ_１からｙ_１へ、ｘ_２からｙ_２へ、ｘ_３からｙ_３へ変換する単一のアフィン変換が存在するとき、この３組の特徴点を対応する組とみなす。この操作をクラスタ内の全ての画像断片の２つの組について適用し、特徴点の対応関係のリストを生成する。次に、クラスタ内に閾値以上の割合で出現する特徴点を以下のように列挙する。
ａ）ｉ番目の画像断片におけるｊ番目の特徴点について、上記２）の処理結果により他の画像断片における特徴点と対応関係があるかをチェックする。
ｂ）上記ａの処理においてｉおよびｊの値を１つずつ加えていき、各画像断片それぞれの各特徴点について同様の処理を行なう。
ｃ）ある特徴点について、他の画像断片内の特徴点との対応関係が幾つの画像断片にわたっているかをカウントする。
ｄ）ある特徴点について、他の画像断片内の特徴点との対応関係が、閾値以上の画像断片にわたって存在する特徴点を代表特徴点とする。

次に代表画像生成部１６２（代表画像生成手段）が、前記抽出した特徴点を持つ複数の画像断片を用いて、抽出した特徴点を重ね合わせて、それら複数の画像断片を合成する処理を行なう（ステップＳ２４）。そして、これにより１つのクラスタに対する代表画像が生成できる。この代表画像の生成においては、代表特徴点を閾値以上の個数もしくは割合で含む画像断片を抽出する。次に、それぞれの共通特徴点の座標が揃うように各画像断片を回転、移動、縮小、拡大により変形させて、それぞれのピクセルの平均値を求めて代表画像を生成する。また物体要約生成装置１６は生成した代表画像をクラスタのＩＤに対応付けて記録装置１５の代表画像記憶部へ記録する。
以上の処理により、クラスタリング結果により得られた複数の画像断片から、その代表画像を生成することができる。

図１３は第３の実施形態による重要物体認識装置の構成を示すブロック図である。
この図が示すように第３の実施形態による重要物体認識装置は、第２の実施形態の重要物体認識装置に、要約表示装置１７が備えられた構成となっている。この要約表示装置１７は、記録装置１５と接続されているものとする。なお、これら画像撮影装置１１、物体抽出装置１２、重要度算出装置１３、学習装置１４、記録装置１５、物体要約生成装置１６、要約表示装置１７の各機能は一つのコンピュータ装置に備えられていてもよいし、複数のコンピュータ装置それぞれに分散されて互いにネットワークケーブル等で接続されることにより重要物体認識装置１を構成するようにしてもよい。

そして、第３の実施形態による重要物体認識装置においては、要約表示装置１７（代表画像表示手段）が、重要度算出装置１３によって算出された重要度を基準として、重要な物体の画像に相当する画像断片を有するクラスタの情報を取得し、その代表画像を記録装置１５から読み取って表示部に出力する処理を行なう。例えば、要約表示装置１７は、各動画像に対し、重要度の高いクラスタを上位から定数個取得し、その代表画像を表示部に出力する。なお、この処理は、画像断片のクラスタ、そのクラスタの情報から物体要約生成装置１６が生成した代表画像、およびそれぞれのクラスタの重要度のみの各情報で処理を実現できるため、視線情報は必須ではなく、視線計測部１１２を持たない画像撮影装置１１、つまり一般的なカメラ等で撮影された、またはアニメーション等の人工的に作り出された画像に対しても代表画像を出力する処理を行うことができる。また、視線情報が利用可能であれば、被注視回数や被注視時間を元にクラスタを選択するようにしても良い。

図１４は第４の実施形態による重要物体認識装置の構成を示すブロック図である。
この図が示すように第４の実施形態による重要物体認識装置は、第２の実施形態の重要物体認識装置に、ユーザ嗜好解析装置１８が備えられた構成となっている。このユーザ嗜好解析装置１８は、画像撮影装置１１および記録装置１５と接続されているものとする。なお、これら画像撮影装置１１、物体抽出装置１２、重要度算出装置１３、学習装置１４、記録装置１５、物体要約生成装置１６、ユーザ嗜好解析装置１８の各機能は一つのコンピュータ装置に備えられていてもよいし、複数のコンピュータ装置それぞれに分散されて互いにネットワークケーブル等で接続されることにより重要物体認識装置１を構成するようにしてもよい。そして、ユーザ嗜好解析装置１８は、ユーザ嗜好学習部１８１と、異常検出部１８２の機能部を有している。

そして、第４の実施形態による重要物体認識装置においては、人の注視の向き方に個人差が存在し、またその時の人の思考状態（何かに集中している、上の空である等）に大きく依存することに注目し、ユーザが普段どのような物体を注視しているかを学習して、ある状況下において注視がなされなかった場合に警告を発するものである。

図１５は第４の実施形態による重要物体認識装置の処理フローを示す図である。
次に、第４の実施形態による重要物体認識装置の処理フローについて説明する。
ユーザ嗜好解析装置１８は、ユーザの注視の向きの傾向を解析し、本来見るべき物体が注視されていないと判定したときに注意喚起を行うものとする。この処理方法は学習フェーズと運用フェーズに分かれており、どちらのフェーズにおいても学習装置１４の視線情報解析部１４２の機能を必要とする。

まず学習フェーズにおいては、ユーザ嗜好学習部１８１（重要画像断片判定手段、注視画像断片判定手段）が重要度および被注視回数（または被注視時間）を元にユーザの嗜好を学習する。重要度は一般的な注視の向きやすさを示す指標とみなすことができるため、重要度と実際の被注視回数（または被注視時間）とのずれを個人差と考えることができる。よって、ユーザ嗜好学習部１８１は、重要度が高いにもかかわらず被注視回数が少ない（または被注視時間が長い）クラスタがある場合、ユーザに重要な物体があると注意喚起すべきと判断する。あるいはユーザが複数存在し、他のユーザの情報を利用することができるようなサービスシナリオにおいては、複数のユーザの学習結果を重ね合わせて一般的に注意を払うべき物体群を抽出するような利用も可能である。

具体的には、ユーザ嗜好学習部１８１が、記録装置１５から、図８で示すクラスタ毎重要度テーブルから各クラスタの重要度を読み取り（ステップＳ３１）、また図９で示すクラスタ毎被注視回数テーブルから各クラスタの被注視回数を読み取る（ステップＳ３２）。そして、重要度が重要度閾値よりも高いクラスタが画像中に存在するにもかかわらず、そのクラスタで示される画像断片の被注視回数が被注視回数閾値よりも低い場合には、そのクラスタで示される物体があると注意喚起すべきと判定する。

また、運用フェーズにおいては、異常検出部１８２（注意喚起情報出力手段）が、画像撮影装置１１から動画像のデータの入力を受け付ける。そして異常検出部１８２は、ユーザの視界内に重要物体と一致する画像領域が存在するか否かを判定する。例えば、異常検出部１８２図７で示すユーザの注視点と、重要な物体として検出したクラスタの画像断片が静止画像に存在する座標とを比較して、一致していなければ、ヘッドマウントディスプレイを装着している場合には、ディスプレイ上にその注意喚起の表示を行なう。またヘッドマウントディスプレイを装着していない場合には、例えば、警告音や振動により注意喚起を行なう処理をするようにしてもよい。

つまり、ユーザ嗜好解析装置１８においては、クラスタ毎の重要度とその重要度の閾値とに基づいて、動画像中から所定の間隔で抽出した各静止画像において重要な画像断片が含まれているか否かを判定し（ステップＳ３３）、クラスタ毎の注視回数と当該注視回数の閾値または注視時間と当該注視時間の閾値に基づいて、動画像中から所定の間隔で抽出した各静止画像においてユーザが注視する画像断片を判定する（ステップＳ３４）。そして、重要な画像断片と、ユーザが注視する画像断片とが異なる場合に、注意喚起情報を出力している（ステップＳ３５）。

以上、本発明の実施形態について説明したが、上述の処理によれば、動画像中に存在する重要な物体を抽出し、その動画像中に存在する代表的な物体に対応する代表画像を作成することが可能となる。また日常生活において撮影した動画像の情報から、ユーザの周囲に存在する重要物体を認識し、物体の状況の把握が可能となり、また不注意時等の注意喚起をユーザに対して行なうことができる。

上述の重要物体認識装置における各装置は内部に、コンピュータシステムを有している。そして、上述した各処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。

また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記録装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

重要物体認識装置の構成を示すブロック図である。第１の実施形態による重要物体認識装置の処理フローを示す図である。ＳＩＦＴ特徴量のデータ例を示す図である。画像断片の一例を示す図である。クラスタリングの処理概要を示す図である。画像断片の重要度の算出処理概要を示す図である。静止画像における注視点と被注視回数の算出結果の一例を示す図である。クラスタ毎重要度テーブルの一例を示す図である。クラスタ毎被注視回数テーブルの一例を示す図である。重要物体の画像断片を示すクラスタの一覧を示す図である。重要物体認識装置の構成を示すブロック図である。重要物体認識装置の処理フローを示す図である。重要物体認識装置の構成を示すブロック図である。重要物体認識装置の構成を示すブロック図である。重要物体認識装置の処理フローを示す図である。

符号の説明

１・・・重要物体認識装置
１１・・・画像撮影装置
１２・・・物体抽出装置
１３・・・重要度算出装置
１４・・・学習装置
１５・・・記録装置
１６・・・物体要約生成装置
１７・・・要約表示装置
１８・・・ユーザ嗜好解析装置

Claims

物体抽出装置と重要度算出装置と学習装置とを備えた重要物体認識装置であって、
前記物体抽出装置が、
入力を受け付けた動画像中から所定の間隔で静止画像を抽出する静止画像抽出手段と、
前記抽出した静止画像それぞれにおける特徴点の画像特徴量を算出する特徴量算出手段と、
前記静止画像を画像断片アルゴリズムを用いて複数の画像断片に分割する画像分割手段と、
前記静止画像それぞれについて前記分割によって得られた各画像断片を、前記算出した画像特徴量に基づいてクラスタリングし、それらクラスタリングされた各画像断片とその画像断片における特徴点における画像特徴量とを対応付けた画像断片毎特徴量情報を、前記クラスタリングの結果得られた画像断片のクラスタ毎に記憶部へ記録するクラスタ内画像断片特徴量算出手段と、を備え、
前記重要度算出装置が、
前記所定の間隔で抽出された各静止画像における各画素の顕著性の度合いを示す顕著性値を算出する顕著性値算出手段と、
前記画像断片に対応する前記静止画像中の画素の前記顕著性値に基づいて、当該画像断片の重要度を算出する画像断片重要度算出手段と、
前記動画像におけるユーザの注視点のデータと、前記画像断片の前記静止画像における座標とに基づいて、前記画像断片毎のユーザによる注視回数または注視時間を算出する注視情報算出手段と、を備え、
前記学習装置が、
前記クラスタ毎の重要度を、当該クラスタに属する前記画像断片の重要度に基づいて算出するクラスタ重要度算出手段と、
前記クラスタ毎の注視回数または注視時間を、当該クラスタに属する前記画像断片の前記注視回数または注視時間に基づいて算出するクラスタ毎注視情報算出手段と、
前記クラスタ毎の重要度と前記クラスタ毎の注視回数または注視時間とに基づいて、複数の前記クラスタが示す物体のうち重要物体を示すクラスタを特定する重要物体対応クラスタ特定手段と、を備える
ことを特徴とする重要物体認識装置。
物体要約生成装置をさらに備え、
当該物体要約生成装置は、
前記静止画像それぞれにおける特徴点の画像特徴量に基づいて、前記各クラスタに属する画像断片の特徴点の画像特徴量を示すクラスタ毎特徴点リストを生成するクラスタ毎特徴点リスト生成手段と、
前記各クラスタに属する画像断片それぞれの特徴点の画像特徴量に基づいて、閾値以上の割合で複数の異なる画像断片に存在する複数の特徴点を抽出する特徴点抽出手段と、
前記抽出した複数の特徴点に基づいて、当該特徴点を持つ各画像断片を合成して代表画像を生成する代表画像生成手段と、
を備えることを特徴とする請求項１に記載の重要物体認識装置。
要約表示装置をさらに備え、
当該要約表示装置は、前記クラスタ毎の重要度に基づいて重要クラスタを判定し、当該重要クラスタと判定したクラスタの前記代表画像を表示部へ表示する代表画像表示手段を備えることを特徴とする請求項１または請求項２に記載の重要物体認識装置。
ユーザ嗜好解析装置をさらに備え、
前記ユーザ嗜好解析装置は、
前記クラスタ毎の重要度とその重要度の閾値とに基づいて、前記動画像中から所定の間隔で抽出した各静止画像において重要な画像断片が含まれているか否かを判定する重要画像断片判定手段と、
前記クラスタ毎の注視回数と当該注視回数の閾値または注視時間と当該注視時間の閾値に基づいて、前記動画像中から所定の間隔で抽出した各静止画像において前記ユーザが注視する画像断片を判定する注視画像断片判定手段と、
前記重要な画像断片と、前記ユーザが注視する画像断片とが異なる場合に、注意喚起情報を出力する注意喚起情報出力手段と、
を備えることを特徴とする請求項１から請求項３に記載の重要物体認識装置。
物体抽出装置と重要度算出装置と学習装置とを備えた重要物体認識装置における重要物体認識方法であって、
前記物体抽出装置の特徴量算出手段が、入力を受け付けた動画像中から所定の間隔で静止画像を抽出し、
前記物体抽出装置の特徴量算出手段が、前記抽出した静止画像それぞれにおける特徴点の画像特徴量を算出し、
前記物体抽出装置の画像分割手段が、前記静止画像を画像断片アルゴリズムを用いて複数の画像断片に分割し、
前記物体抽出装置のクラスタ内画像断片特徴量算出手段が、前記静止画像それぞれについて前記分割によって得られた各画像断片を、前記算出した画像特徴量に基づいてクラスタリングし、それらクラスタリングされた各画像断片とその画像断片における特徴点における画像特徴量とを対応付けた画像断片毎特徴量情報を、前記クラスタリングの結果得られた画像断片のクラスタ毎に記憶部へ記録し、
前記重要度算出装置の顕著性値算出手段が、前記所定の間隔で抽出された各静止画像における各画素の顕著性の度合いを示す顕著性値を算出し、
前記重要度算出装置の画像断片重要度算出手段が、前記画像断片に対応する前記静止画像中の画素の前記顕著性値に基づいて、当該画像断片の重要度を算出し、
前記重要度算出装置の注視情報算出手段が、前記動画像におけるユーザの注視点のデータと、前記画像断片の前記静止画像における座標とに基づいて、前記画像断片毎のユーザによる注視回数または注視時間を算出し、
前記学習装置のクラスタ重要度算出手段が、前記クラスタ毎の重要度を、当該クラスタに属する前記画像断片の重要度に基づいて算出し、
前記学習装置のクラスタ毎注視情報算出手段が、前記クラスタ毎の注視回数または注視時間を、当該クラスタに属する前記画像断片の前記注視回数または注視時間に基づいて算出し、
前記学習装置の重要物体対応クラスタ特定手段が、前記クラスタ毎の重要度と前記クラスタ毎の注視回数または注視時間とに基づいて、複数の前記クラスタが示す物体のうち重要物体を示すクラスタを特定する
ことを特徴とする重要物体認識方法。
重要物体認識装置のコンピュータを、
入力を受け付けた動画像中から所定の間隔で静止画像を抽出する静止画像抽出手段、
前記抽出した静止画像それぞれにおける特徴点の画像特徴量を算出する特徴量算出手段、
前記静止画像を画像断片アルゴリズムを用いて複数の画像断片に分割する画像分割手段、
前記静止画像それぞれについて前記分割によって得られた各画像断片を、前記算出した画像特徴量に基づいてクラスタリングし、それらクラスタリングされた各画像断片とその画像断片における特徴点における画像特徴量とを対応付けた画像断片毎特徴量情報を、前記クラスタリングの結果得られた画像断片のクラスタ毎に記憶部へ記録するクラスタ内画像断片特徴量算出手段、
前記所定の間隔で抽出された各静止画像における各画素の顕著性の度合いを示す顕著性値を算出する顕著性値算出手段、
前記画像断片に対応する前記静止画像中の画素の前記顕著性値に基づいて、当該画像断片の重要度を算出する画像断片重要度算出手段、
前記動画像におけるユーザの注視点のデータと、前記画像断片の前記静止画像における座標とに基づいて、前記画像断片毎のユーザによる注視回数または注視時間を算出する注視情報算出手段、
前記クラスタ毎の重要度を、当該クラスタに属する前記画像断片の重要度に基づいて算出するクラスタ重要度算出手段、
前記クラスタ毎の注視回数または注視時間を、当該クラスタに属する前記画像断片の前記注視回数または注視時間に基づいて算出するクラスタ毎注視情報算出手段、
前記クラスタ毎の重要度と前記クラスタ毎の注視回数または注視時間とに基づいて、複数の前記クラスタが示す物体のうち重要物体を示すクラスタを特定する重要物体対応クラスタ特定手段
として機能させるためのプログラム。