JP2009289210A - 重要物体認識装置および重要物体認識方法ならびにそのプログラム - Google Patents
重要物体認識装置および重要物体認識方法ならびにそのプログラム Download PDFInfo
- Publication number
- JP2009289210A JP2009289210A JP2008143743A JP2008143743A JP2009289210A JP 2009289210 A JP2009289210 A JP 2009289210A JP 2008143743 A JP2008143743 A JP 2008143743A JP 2008143743 A JP2008143743 A JP 2008143743A JP 2009289210 A JP2009289210 A JP 2009289210A
- Authority
- JP
- Japan
- Prior art keywords
- image
- cluster
- importance
- fragment
- gaze
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
【課題】抽出対象の物体を事前に定義する必要無く容易に任意の物体の画像からの抽出を行うことのできる重要物体認識装置を提供する。
【解決手段】動画像中に存在する重要な物体を抽出し、その物体を利用した映像の要約である代表画像を作成する。また撮影した動画像の情報から、ユーザの周囲に存在する重要物体を認識し、物体の状況の把握し、不注意時等の注意喚起をユーザに対して行なう。
【選択図】図1
【解決手段】動画像中に存在する重要な物体を抽出し、その物体を利用した映像の要約である代表画像を作成する。また撮影した動画像の情報から、ユーザの周囲に存在する重要物体を認識し、物体の状況の把握し、不注意時等の注意喚起をユーザに対して行なう。
【選択図】図1
Description
本発明は、画像情報に存在する顕著な物体を自動的に抽出することのできる重要物体認識装置および重要物体認識方法ならびにそのプログラムに関する。
従来、ユーザの置かれた状況を自動的に判断し、その状況に合わせたサービスを提供するための技術開発はユビキタスコンピューティングにおける需要事項の一つであった。そして現在、「状況」に対する計測器の乏しさから、研究の大半が状況を特定する物体の位置や時間、あるいはその組合せから推定される当該物体のプレゼンス情報などの情報を採用して「状況」を判定するなどしている。しかしながら、場所と状況の対応関係は1対1ではない。例えばワンルームマンションでは、同じ室内において、人が食事を取り、睡眠し、あるいは娯楽に興じるなど、人の状況は多様に変化する。従って、高度な「状況」の判断を抽出することが求められている。
なお、近年、画像処理技術の発達に伴い、動画像中から人物や自動車などを自動的に検出する技術が特許文献1に開示されている。この特許文献1の技術には、動画像中に搭乗する人物を自動的に抽出し、顧客データベースに利用するシステムが開示されている。
また、大量の画像と単語列との組を用意し、その関係を学習することで画像辞書を作成する技術が非特許文献1に開示されている。
特開2004−258764号公報
中山英樹、外3名、「画像・単語間概念対応の確率構造学習を利用した超高速画像認識・検索方法」、社団法人電子情報通信学会、信学技報、PRMU2007−147,pp.65−70,2007年12月
なお、近年、画像処理技術の発達に伴い、動画像中から人物や自動車などを自動的に検出する技術が特許文献1に開示されている。この特許文献1の技術には、動画像中に搭乗する人物を自動的に抽出し、顧客データベースに利用するシステムが開示されている。
また、大量の画像と単語列との組を用意し、その関係を学習することで画像辞書を作成する技術が非特許文献1に開示されている。
ここで、上述の特許文献1の技術は、人物の顔など、対象を想定してのテンプレートマッチングを行なっている。テンプレートマッチングは検出したい対象が明確な場合には非常に有効であるが、検出対象を他の一般的な物体に拡張することは不可能である。例えば大自然や街中の雑踏の風景など、主となる物体を予め定義できない場合には利用することができない。
また上述の非特許文献1の技術は、画像と単語列との組を作成する労力が大きいため、大量の異なる物体の自動抽出をそれぞれ行なうことは困難である。
また上述の非特許文献1の技術は、画像と単語列との組を作成する労力が大きいため、大量の異なる物体の自動抽出をそれぞれ行なうことは困難である。
そこでこの発明は、抽出対象の物体を事前に定義する必要無く容易に任意の物体の画像からの抽出を行うことのできる重要物体認識装置および重要物体認識方法ならびにそのプログラムを提供することを目的としている。
上記目的を達成するために、本発明は、物体抽出装置と重要度算出装置と学習装置とを備えた重要物体認識装置であって、前記物体抽出装置が、入力を受け付けた動画像中から所定の間隔で静止画像を抽出する静止画像抽出手段と、前記抽出した静止画像それぞれにおける特徴点の画像特徴量を算出する特徴量算出手段と、前記静止画像を画像断片アルゴリズムを用いて複数の画像断片に分割する画像分割手段と、前記静止画像それぞれについて前記分割によって得られた各画像断片を、前記算出した画像特徴量に基づいてクラスタリングし、それらクラスタリングされた各画像断片とその画像断片における特徴点における画像特徴量とを対応付けた画像断片毎特徴量情報を、前記クラスタリングの結果得られた画像断片のクラスタ毎に記憶部へ記録するクラスタ内画像断片特徴量算出手段と、を備え、前記重要度算出装置が、前記所定の間隔で抽出された各静止画像における各画素の顕著性の度合いを示す顕著性値を算出する顕著性値算出手段と、前記画像断片に対応する前記静止画像中の画素の前記顕著性値に基づいて、当該画像断片の重要度を算出する画像断片重要度算出手段と、前記動画像におけるユーザの注視点のデータと、前記画像断片の前記静止画像における座標とに基づいて、前記画像断片毎のユーザによる注視回数または注視時間を算出する注視情報算出手段と、を備え、前記学習装置が、前記クラスタ毎の重要度を、当該クラスタに属する前記画像断片の重要度に基づいて算出するクラスタ重要度算出手段と、前記クラスタ毎の注視回数または注視時間を、当該クラスタに属する前記画像断片の前記注視回数または注視時間に基づいて算出するクラスタ毎注視情報算出手段と、前記クラスタ毎の重要度と前記クラスタ毎の注視回数または注視時間とに基づいて、複数の前記クラスタが示す物体のうち重要物体を示すクラスタを特定する重要物体対応クラスタ特定手段と、を備えることを特徴とする重要物体認識装置である。
また本発明は、上述の重要物体認識装置が物体要約生成装置をさらに備え、当該物体要約生成装置は、前記静止画像それぞれにおける特徴点の画像特徴量に基づいて、前記各クラスタに属する画像断片の特徴点の画像特徴量を示すクラスタ毎特徴点リストを生成するクラスタ毎特徴点リスト生成手段と、前記各クラスタに属する画像断片それぞれの特徴点の画像特徴量に基づいて、閾値以上の割合で複数の異なる画像断片に存在する複数の特徴点を抽出する特徴点抽出手段と、前記抽出した複数の特徴点に基づいて、当該特徴点を持つ各画像断片を合成して代表画像を生成する代表画像生成手段と、を備えることを特徴とする。
また本発明は、上述の重要物体認識装置が要約表示装置をさらに備え、当該要約表示装置は、前記クラスタ毎の重要度に基づいて重要クラスタを判定し、当該重要クラスタと判定したクラスタの前記代表画像を表示部へ表示する代表画像表示手段を備えることを特徴とする。
また本発明は、上述の重要物体認識装置がユーザ嗜好解析装置をさらに備え、前記ユーザ嗜好解析装置は、前記クラスタ毎の重要度とその重要度の閾値とに基づいて、前記動画像中から所定の間隔で抽出した各静止画像において重要な画像断片が含まれているか否かを判定する重要画像断片判定手段と、前記クラスタ毎の注視回数と当該注視回数の閾値または注視時間と当該注視時間の閾値に基づいて、前記動画像中から所定の間隔で抽出した各静止画像において前記ユーザが注視する画像断片を判定する注視画像断片判定手段と、前記重要な画像断片と、前記ユーザが注視する画像断片とが異なる場合に、注意喚起情報を出力する注意喚起情報出力手段と、を備えることを特徴とする。
また本発明は、物体抽出装置と重要度算出装置と学習装置とを備えた重要物体認識装置における重要物体認識方法であって、前記物体抽出装置の特徴量算出手段が、入力を受け付けた動画像中から所定の間隔で静止画像を抽出し、前記物体抽出装置の特徴量算出手段が、前記抽出した静止画像それぞれにおける特徴点の画像特徴量を算出し、前記物体抽出装置の画像分割手段が、前記静止画像を画像断片アルゴリズムを用いて複数の画像断片に分割し、前記物体抽出装置のクラスタ内画像断片特徴量算出手段が、前記静止画像それぞれについて前記分割によって得られた各画像断片を、前記算出した画像特徴量に基づいてクラスタリングし、それらクラスタリングされた各画像断片とその画像断片における特徴点における画像特徴量とを対応付けた画像断片毎特徴量情報を、前記クラスタリングの結果得られた画像断片のクラスタ毎に記憶部へ記録し、前記重要度算出装置の顕著性値算出手段が、前記所定の間隔で抽出された各静止画像における各画素の顕著性の度合いを示す顕著性値を算出し、前記重要度算出装置の画像断片重要度算出手段が、前記画像断片に対応する前記静止画像中の画素の前記顕著性値に基づいて、当該画像断片の重要度を算出し、前記重要度算出装置の注視情報算出手段が、前記動画像におけるユーザの注視点のデータと、前記画像断片の前記静止画像における座標とに基づいて、前記画像断片毎のユーザによる注視回数または注視時間を算出し、前記学習装置のクラスタ重要度算出手段が、前記クラスタ毎の重要度を、当該クラスタに属する前記画像断片の重要度に基づいて算出し、前記学習装置のクラスタ毎注視情報算出手段が、前記クラスタ毎の注視回数または注視時間を、当該クラスタに属する前記画像断片の前記注視回数または注視時間に基づいて算出し、前記学習装置の重要物体対応クラスタ特定手段が、前記クラスタ毎の重要度と前記クラスタ毎の注視回数または注視時間とに基づいて、複数の前記クラスタが示す物体のうち重要物体を示すクラスタを特定することを特徴とする重要物体認識方法である。
また本発明は、重要物体認識装置のコンピュータを、入力を受け付けた動画像中から所定の間隔で静止画像を抽出する静止画像抽出手段、前記抽出した静止画像それぞれにおける特徴点の画像特徴量を算出する特徴量算出手段、前記静止画像を画像断片アルゴリズムを用いて複数の画像断片に分割する画像分割手段、前記静止画像それぞれについて前記分割によって得られた各画像断片を、前記算出した画像特徴量に基づいてクラスタリングし、それらクラスタリングされた各画像断片とその画像断片における特徴点における画像特徴量とを対応付けた画像断片毎特徴量情報を、前記クラスタリングの結果得られた画像断片のクラスタ毎に記憶部へ記録するクラスタ内画像断片特徴量算出手段、前記所定の間隔で抽出された各静止画像における各画素の顕著性の度合いを示す顕著性値を算出する顕著性値算出手段、前記画像断片に対応する前記静止画像中の画素の前記顕著性値に基づいて、当該画像断片の重要度を算出する画像断片重要度算出手段、前記動画像におけるユーザの注視点のデータと、前記画像断片の前記静止画像における座標とに基づいて、前記画像断片毎のユーザによる注視回数または注視時間を算出する注視情報算出手段、前記クラスタ毎の重要度を、当該クラスタに属する前記画像断片の重要度に基づいて算出するクラスタ重要度算出手段、前記クラスタ毎の注視回数または注視時間を、当該クラスタに属する前記画像断片の前記注視回数または注視時間に基づいて算出するクラスタ毎注視情報算出手段、前記クラスタ毎の重要度と前記クラスタ毎の注視回数または注視時間とに基づいて、複数の前記クラスタが示す物体のうち重要物体を示すクラスタを特定する重要物体対応クラスタ特定手段として機能させるためのプログラムである。
本発明によれば、動画像中に存在する重要な物体を抽出し、その動画像中に存在する代表的な物体に対応する代表画像を作成することが可能となる。また日常生活において撮影した動画像の情報から、ユーザの周囲に存在する重要物体を認識し、物体の状況の把握が可能となり、また不注意時等の注意喚起をユーザに対して行なうことができる。
以下、本発明の第1の実施形態による重要物体認識装置を図面を参照して説明する。
図1は第1の実施形態による重要物体認識装置の構成を示すブロック図である。
この図において、符号1は重要物体認識装置である。そして、重要物体認識装置1は画像撮影装置11、物体抽出装置12、重要度算出装置13、学習装置14、記録装置15を備えている。なお、これら画像撮影装置11、物体抽出装置12、重要度算出装置13、学習装置14、記録装置15の各機能は一つのコンピュータ装置に備えられていてもよいし、複数のコンピュータ装置それぞれに分散されて互いにネットワークケーブル等で接続されることにより重要物体認識装置1を構成するようにしてもよい。
図1は第1の実施形態による重要物体認識装置の構成を示すブロック図である。
この図において、符号1は重要物体認識装置である。そして、重要物体認識装置1は画像撮影装置11、物体抽出装置12、重要度算出装置13、学習装置14、記録装置15を備えている。なお、これら画像撮影装置11、物体抽出装置12、重要度算出装置13、学習装置14、記録装置15の各機能は一つのコンピュータ装置に備えられていてもよいし、複数のコンピュータ装置それぞれに分散されて互いにネットワークケーブル等で接続されることにより重要物体認識装置1を構成するようにしてもよい。
そして、画像撮影装置11は、環境撮影部111、視線計測部112の各機能部を有し、また物体抽出装置12は特徴点算出部121、領域抽出部122、物体学習部123の各機能部を有している。また重要度算出装置13は、重要度算出部131、視線情報変換部132の各機能部を有し、また学習装置14は重要度解析部141、視線情報解析部142、相関解析部143の各機能部を有している。
ここで、本発明の実施形態による重要物体認識装置1は、まず、事前に物体を定義されない状況において画像のみから特徴のある物体を学習する処理を行なう。本実施形態において学習とは重要な物体を抽出することを意味する。この学習する処理においては、まず物体抽出装置12が、動画像をフレーム毎に分割し、特徴点算出部121において各フレームの特徴点を算出する。特徴点としては、1)特定のピクセルまたは部分に対して局所的に求まり、2)画像が細分化された後にも値が保持され、3)拡大縮小や回転等の影響を受けない、という性質のものであればどのようなものでもよい。
そして領域抽出部122が、輝度や彩度、エッジ情報などを元に、各フレームを単一の物体もしくは物体の一部を示す画像断片に分割する。
そして、物体学習部123は、領域抽出部122により得られた画像断片を、画像断片中に含まれる特徴点を元にクラスタリングする。クラスタリングアルゴリズムには階層的クラスタリングなど、クラスタ数を定義しなくてよいものを利用する。
そして領域抽出部122が、輝度や彩度、エッジ情報などを元に、各フレームを単一の物体もしくは物体の一部を示す画像断片に分割する。
そして、物体学習部123は、領域抽出部122により得られた画像断片を、画像断片中に含まれる特徴点を元にクラスタリングする。クラスタリングアルゴリズムには階層的クラスタリングなど、クラスタ数を定義しなくてよいものを利用する。
ここで、それぞれのクラスタは単一の物体もしくは物体の一部を示す画像集合である。例えば椅子であれば背もたれと肘掛がそれぞれ別の物体として分かれて学習される可能性がある。また本と本棚は異なる物体であるが、環境を認識する上ではそれらをまとめて本棚という1つの物体として認識した方が良い場合もある。これら物体内もしくは物体間の階層構造を吸収するため、クラスタ内に含まれる画像断片の共起関係を利用してクラスタを階層的に統合する。
図2は第1の実施形態による重要物体認識装置の処理フローを示す図である。
次に、第1の実施形態による重要物体認識装置の処理フローについて説明する。
まず、重要物体認識装置の、画像撮影装置11においては、環境撮影部111がユーザの周囲の環境を撮影し(ステップS1)、視線計測部112がユーザの注視位置を計測する(ステップS2)。ここで、例えば環境撮影部111は具体的にはヘッドマウント型のビューカメラ等であり、これをユーザが頭部に装着する。また、ユーザの眼球運動を撮影するアイカメラを同時に装着し、予め眼球の動きとビューカメラにおける座標との対応関係を学習しておくことで、視線計測部112が、ユーザのその時々の撮影画像における注視点を算出することができる。そして、ビューカメラが撮影した各フレームの画像と、アイカメラが撮影した各時間における注視点の情報とが記録装置15の取得データ記憶部に時間の経過と共に順次記録される。
次に、第1の実施形態による重要物体認識装置の処理フローについて説明する。
まず、重要物体認識装置の、画像撮影装置11においては、環境撮影部111がユーザの周囲の環境を撮影し(ステップS1)、視線計測部112がユーザの注視位置を計測する(ステップS2)。ここで、例えば環境撮影部111は具体的にはヘッドマウント型のビューカメラ等であり、これをユーザが頭部に装着する。また、ユーザの眼球運動を撮影するアイカメラを同時に装着し、予め眼球の動きとビューカメラにおける座標との対応関係を学習しておくことで、視線計測部112が、ユーザのその時々の撮影画像における注視点を算出することができる。そして、ビューカメラが撮影した各フレームの画像と、アイカメラが撮影した各時間における注視点の情報とが記録装置15の取得データ記憶部に時間の経過と共に順次記録される。
そして、物体抽出装置12の特徴点算出部121(静止画像抽出手段、特徴量算出手段)は、画像撮影装置11より受信した動画像のデータを、フレーム毎に分割し、ある一定のインターバルにより解析対象となる静止画像を抽出する(ステップS3)。そして、特徴点算出部121は、抽出したそれぞれの静止画像の局所特徴点における特徴量を算出して(ステップS4)、静止画像ごとにその特徴点の特徴量を示すリストを記録装置15の静止画像毎特徴点リスト記憶部へ記録する。この局所特徴量は、静止画像が細分化された後にも当該細分化後の各画像にも当該特徴量の値が保持されるようなものであれば良く、例えば、ロボットビジョンやパノラマ画像生成などに広く利用されている二次元不変特徴量であるSIFT特徴量等の公知な手法などが利用できる。SIFT特徴量は画像内の特徴的なピクセルに対し、128次元の数値ベクトルとして与えられる。
図3はSIFT特徴量のデータ例を示す図である。
この図においてはnフレーム毎に切り出された静止画像と、その画像中に存在する特徴点のリストを示している。SIFT特徴量の算出においては、特徴点は画像中において数百点〜数千点特定され、それぞれの特徴点において、128次元の数値ベクトルが与えられる。特徴点のリストにおける左上の数字列はその特徴点の画像の左上を原点としたx座標,y座標を示している(最初の特徴点においてはx座標136.15、y座標500.70と記載)。なおSIFT特徴量の算出手法は「D. G. Lowe,“Distinctive image features from scaleinvariant keypoints”, International Journal of Computer Vision, 60(2), pp. 91-110 (2004).< http://citeseer.ist.psu.edu/cache/papers/cs/30631/http:zSzzSzwww.cs.ubc.cazSz~lowezSzpaperszSzijcv04.pdf/lowe04distinctive.pdf >」などを利用する。
この図においてはnフレーム毎に切り出された静止画像と、その画像中に存在する特徴点のリストを示している。SIFT特徴量の算出においては、特徴点は画像中において数百点〜数千点特定され、それぞれの特徴点において、128次元の数値ベクトルが与えられる。特徴点のリストにおける左上の数字列はその特徴点の画像の左上を原点としたx座標,y座標を示している(最初の特徴点においてはx座標136.15、y座標500.70と記載)。なおSIFT特徴量の算出手法は「D. G. Lowe,“Distinctive image features from scaleinvariant keypoints”, International Journal of Computer Vision, 60(2), pp. 91-110 (2004).< http://citeseer.ist.psu.edu/cache/papers/cs/30631/http:zSzzSzwww.cs.ubc.cazSz~lowezSzpaperszSzijcv04.pdf/lowe04distinctive.pdf >」などを利用する。
そして、物体抽出装置12の領域抽出部122(画像分割手段)は、輝度や彩度、エッジ情報(例えば画像中において輝度や彩度が閾値以上に大きく異なる箇所の連続する画素による線分)などを元に、画像ピラミッド法や平均値シフト法、watershedアルゴリズム等を用いて、抽出された静止画像を、当該静止画像における単一の物体もしくは物体の一部を示す画像断片に分割する(ステップS5)。
図4は画像断片の一例を示す図である。
この図が示すように、領域抽出部122は、フレーム毎に切り出された静止画像を、単一の物体もしくは物体の一部を示す画像断片に分割している。
この図が示すように、領域抽出部122は、フレーム毎に切り出された静止画像を、単一の物体もしくは物体の一部を示す画像断片に分割している。
次に、物体学習部123(クラスタ内画像断片特徴量算出手段)は、領域抽出部122より得られた画像断片を、画像断片中に含まれる特徴点を元にクラスタリングする(ステップS6)。このクラスタリングアルゴリズムは、公知手法である階層的クラスタリング等を用いればよい。なお、この階層的クラスタリングにおいて、画像断片a,b間の距離D(a,b)は、SIFT特徴点を用いた場合、下記式(1)のように定義することができる。
但し、式(1)においてnは画像断片aと画像断片bの中で一致した特徴点の数、nAlla,nAllbはそれぞれ画像断片a,bが持つ特徴点の個数、ai,biは画像断片a,画像断片bにおいて一致したi番目の組の特徴点、D(ai,bi)はai,biの特徴ベクトルのユークリッド距離を表す。
ここで対応する特徴点の組は、
1)画像断片a,bにおける全ての特徴点の組についてユークリッド距離を求め、閾値以下の距離の組を候補組とする。
2)候補組中の任意の3組の特徴点のユークリッド距離(x1,y1),(x2,y2),(x3,y3)についてx1からy1へ、x2からy2へ、x3からy3へ変換する単一のアフィン変換が存在するとき、この3組の特徴点を対応する組とみなす。
ことによりクラスタリングの結果を生成することができる。
1)画像断片a,bにおける全ての特徴点の組についてユークリッド距離を求め、閾値以下の距離の組を候補組とする。
2)候補組中の任意の3組の特徴点のユークリッド距離(x1,y1),(x2,y2),(x3,y3)についてx1からy1へ、x2からy2へ、x3からy3へ変換する単一のアフィン変換が存在するとき、この3組の特徴点を対応する組とみなす。
ことによりクラスタリングの結果を生成することができる。
次に物体抽出装置12の物体学習部123が、クラスタを階層的に統合する。上述のクラスタリングの処理において階層的クラスタリングを用いている場合には、そのクラスタリング結果をそのまま利用することができる。また、画像断片の共起関係を求め、閾値以上の割合で共に出現するクラスタを1つのクラスタに統合するという方法で統合することもできる。
図5はクラスタリングの処理概要を示す図である。
この図が示すように、2つの静止画像A,Bからはそれぞれ特徴点のリストA,Bが特徴点算出部121によって生成されている。そして、その静止画像A,Bそれぞれの画像断片の特徴点を比較して、上記手法により、クラスタリングを行なっている。なお物体学習部123は、クラスタリングの結果である、クラスタに属する各静止画像の画像断片の識別情報(ID)と、その特徴点とを対応付けたクラスタ内画像断片毎の特徴点リスト(画像断片毎特徴量情報)を、記録装置15のクラスタ内画像断片毎特徴点リスト記憶部に記録する。
この図が示すように、2つの静止画像A,Bからはそれぞれ特徴点のリストA,Bが特徴点算出部121によって生成されている。そして、その静止画像A,Bそれぞれの画像断片の特徴点を比較して、上記手法により、クラスタリングを行なっている。なお物体学習部123は、クラスタリングの結果である、クラスタに属する各静止画像の画像断片の識別情報(ID)と、その特徴点とを対応付けたクラスタ内画像断片毎の特徴点リスト(画像断片毎特徴量情報)を、記録装置15のクラスタ内画像断片毎特徴点リスト記憶部に記録する。
次に重要度算出装置13が、画像撮影装置11より入力を受けた画像および視線情報から、画像断片の重要度および画像断片に対応する物体の被注視時間をそれぞれ算出する。まず、重要度算出部131(顕著性値算出手段、画像断片重要度算出手段)が、物体抽出装置12と同様に、抽出された静止画像に対して、顕著性MAP(Saliency map)を生成し、当該静止画像の各ピクセルにおける顕著性の値を算出する。なお、顕著性MAPとは、画像において人の目の注意を引きやすい指標を算出するための技術であり、この顕著性MAPを算出するための理論について「C.Koch, S.Ullman “Shifts in selective visual attention: Towards the underlying neural circuitry” Human Neurobilogy Vol.4, pp.219-227, 1985.」に開示されており、また、その理論を計算機によって実装した技術が「Laurent Itti and Christof Koch.“Computational Modeling of visual Attention”Nature Neuroscience Review, Vol.2, pp.194-204, 2001.」に開示されている。そして、本実施形態においては、この文献に記述されている顕著性MAPの算出手法を用いている。ここで、人の視覚は輝度や色相が局所的に大きく変動する部分に引き付けられ易いという性質が知られている。そして、「Laurent Itti and Christof Koch.“Computational Modeling of visual Attention”Nature Neuroscience Review, Vol.2, pp.194-204, 2001.」の文献においては、1枚の画像からスケール(縮尺)の異なる複数の画像を生成し、それぞれの画像における各ピクセルについて輝度・色相及び輝度の変化方向を算出している。そして、異なるスケールの2枚の画像の組のそれぞれについて、対応するピクセルにおける輝度・色相及び輝度の変化方向の変化量の重み付き和を足し合わせ、その値をピクセルにおける顕著性値として算出している。
図6は画像断片の重要度の算出処理概要を示す図である。
顕著性MAPは、1枚の静止画像(カラー、モノクロ問わず)に対して1枚のグレースケールの画像の形で生成され、各ピクセルの輝度値(例えば、0〜255)がそのピクセルの重要度にあたる。そして、図4に示すように、フレーム毎に切り出された静止画像からグレースケールの画像を生成される。この画像において値が1に近い、つまり白に近い色の箇所が人の目の注意を引きやすい箇所となる。そして、重要度算出部131は、ある画像断片の各ピクセルに対して顕著性の値を算出すると、その最大値または平均を、当該画像断片の重要度として算出および出力する(ステップS7)。この出力においては、図6で示すように、各画像断片のIDと、その画像断片が属する静止画像のIDと、静止画像中において画像断片が割り当てられた番号と、その画像断片の重要度の値が対応付けられた表形式で出力される。
顕著性MAPは、1枚の静止画像(カラー、モノクロ問わず)に対して1枚のグレースケールの画像の形で生成され、各ピクセルの輝度値(例えば、0〜255)がそのピクセルの重要度にあたる。そして、図4に示すように、フレーム毎に切り出された静止画像からグレースケールの画像を生成される。この画像において値が1に近い、つまり白に近い色の箇所が人の目の注意を引きやすい箇所となる。そして、重要度算出部131は、ある画像断片の各ピクセルに対して顕著性の値を算出すると、その最大値または平均を、当該画像断片の重要度として算出および出力する(ステップS7)。この出力においては、図6で示すように、各画像断片のIDと、その画像断片が属する静止画像のIDと、静止画像中において画像断片が割り当てられた番号と、その画像断片の重要度の値が対応付けられた表形式で出力される。
次に視線情報変換部132(注視情報算出手段)が、各静止画像に含まれる画像断片それぞれが、次のインターバル間隔によって静止画像が抽出されるまでの間に注視される回数を算出する。例えば、インターバル間隔が15フレームである場合、時刻tから時刻t+14における静止画像内の対応する画像断片の被注視回数を算出する(ステップS8)。ここで、アイカメラが撮影した各時間における注視点の情報が記録装置15に記録されているので、視線情報変換部132は、そのアイカメラが撮影した各時間における注視点の情報により、インターバル間隔における15フレームそれぞれの、ユーザの注視点を記録装置15から読み取り、その注視点が画像断片の静止画像中の座標に対応するか否かによって、その画像断片を注視したかどうか判断して、被注視回数を算出すればよい。
図7は各フレームの静止画像における注視点と被注視回数の算出結果の一例を示す図である。
図7で示すように、視線情報変換部132は、記録装置15に記録されているインターバル間隔における各15フレームそれぞれのユーザの注視点を読み取り、その一覧を生成する。その一覧の例が左の表である。そして視線情報変換部132は、その注視点が画像断片の静止画像中の座標に対応するか否かによって、その画像断片を注視したかどうか判断して、画像断片のIDとその画像断片が属する静止画像のIDと、画像断片の静止画像における番号と被注視回数とを対応付けたデータを生成して、記録装置15の画像断片毎被注視回数記憶部に記録する。
図7で示すように、視線情報変換部132は、記録装置15に記録されているインターバル間隔における各15フレームそれぞれのユーザの注視点を読み取り、その一覧を生成する。その一覧の例が左の表である。そして視線情報変換部132は、その注視点が画像断片の静止画像中の座標に対応するか否かによって、その画像断片を注視したかどうか判断して、画像断片のIDとその画像断片が属する静止画像のIDと、画像断片の静止画像における番号と被注視回数とを対応付けたデータを生成して、記録装置15の画像断片毎被注視回数記憶部に記録する。
そして、次に学習装置14が、物体抽出装置12によって求められた画像断片およびクラスタリング結果の情報と、重要度算出装置13によって算出された各画像断片の重要度と被注視回数の情報とを結合し、その相関を分析する。つまり、まず学習装置14において、重要度解析部141(クラスタ重要度算出手段)が、クラスタ毎の重要度を算出する(ステップS9)。この重要度は、例えば、クラスタを構成する各画像断片の重要度の正規分布から大きく外れたものを取り除いた後の各重要度の値の平均値とする。そして、各クラスタのIDとそのクラスタに対して算出した重要度とそのクラスタを構成する各画像断片のIDとを対応付けたクラスタ重要度テーブルを生成して記録装置15のクラスタ重要度テーブル記憶部に記録する。
図8はクラスタ毎重要度テーブルの一例を示す図である。
この図における左の表は、図6で示したような、重要度算出部131の算出した各画像断片に対する重要度を示す表である。そしてこの情報を用いて、学習装置14が、右側の表であるクラスタ毎重要度テーブルを生成する。
この図における左の表は、図6で示したような、重要度算出部131の算出した各画像断片に対する重要度を示す表である。そしてこの情報を用いて、学習装置14が、右側の表であるクラスタ毎重要度テーブルを生成する。
また学習装置14において、視線情報解析部142(クラスタ毎注視情報算出手段)が、クラスタ毎の被注視回数を算出する(ステップS10)。クラスタ毎の被注視回数はユーザの特性や時間に大きく影響されるため、トレンド分析等の時系列解析的手法が必要となる。例えば、連続するシーン(インターバル間隔内の15フレーム)における被注視回数の最大値を、クラスタを構成する各画像断片ごとに求め、その平均値、最大値、最小値、分散などの値を、当該クラスタの被注視回数と算出する。
図9はクラスタ毎被注視回数テーブルの一例を示す図である。
この図における左の表は、図7で示したような、視線情報変換部132の算出した各画像断片に対する被注視回数を示す表である。そしてこの情報を用いて、学習装置14の視線情報解析部142が、右側の表であるクラスタ毎被注視回数テーブルを生成する。
この図における左の表は、図7で示したような、視線情報変換部132の算出した各画像断片に対する被注視回数を示す表である。そしてこの情報を用いて、学習装置14の視線情報解析部142が、右側の表であるクラスタ毎被注視回数テーブルを生成する。
また学習装置14において、相関解析部143(重要物体対応クラスタ特定手段)が、重要度解析部141および視線情報解析部142で得られた結果(クラスタ毎重要度テーブル,クラスタ毎被注視回数テーブル)のうち、重要度、被注視回数ピーク値の平均値または最大値のいずれかが、予め定義された閾値以上であったクラスタを重要物体の画像断片を示すクラスタであると特定して記録装置15の重要物体記憶部に記録する(ステップS11)。
図10は重要物体の画像断片を示すクラスタの一覧を示す図である。
この図が示すように、重要物体の画像断片を示すクラスタの一覧は、クラスタIDと、そのクラスタの重要度、被注視回数ピーク値の平均値、分散、最大値、最小値、クラスタに含まれる各画像断片を対応付けている。そして相関解析部143は、この一覧のデータを記録装置15へ記録する。以上の処理により、第1の実施形態による重要物体認識装置の処理が終了する。
この図が示すように、重要物体の画像断片を示すクラスタの一覧は、クラスタIDと、そのクラスタの重要度、被注視回数ピーク値の平均値、分散、最大値、最小値、クラスタに含まれる各画像断片を対応付けている。そして相関解析部143は、この一覧のデータを記録装置15へ記録する。以上の処理により、第1の実施形態による重要物体認識装置の処理が終了する。
この第1の実施形態による処理によれば、事前に重要な物体を定義することなく、撮影した動画像から重要と思われる物体を検出することが可能となる。なお、上述の処理においては被注視回数を用いているが、ユーザが物体を注視した被注視時間を用いて、上記の処理を行なうようにしても良い。被注視時間は、各静止画像に含まれる画像断片それぞれが、次のインターバル間隔によって静止画像が抽出されるまでの間に注視される時間である。上述と同様に、例えば、インターバル間隔が15フレームである場合、時刻tから時刻t+14における静止画像内の対応する画像断片の被注視時間を算出する。アイカメラが撮影した各時間における注視点の情報が記録装置15に記録されているので、視線情報変換部132は、そのアイカメラが撮影した各時間の合計を、その注視点が画像断片毎に算出すればよい。
図11は第2の実施形態による重要物体認識装置の構成を示すブロック図である。
この図が示すように第2の実施形態による重要物体認識装置は、第1の実施形態の重要物体認識装置に、物体要約生成装置16が備えられた構成となっている。この物体要約生成装置16は、物体抽出装置12および記録装置15と接続されているものとする。なお、これら画像撮影装置11、物体抽出装置12、重要度算出装置13、学習装置14、記録装置15、物体要約生成装置16の各機能は一つのコンピュータ装置に備えられていてもよいし、複数のコンピュータ装置それぞれに分散されて互いにネットワークケーブル等で接続されることにより重要物体認識装置1を構成するようにしてもよい。そして物体要約生成装置16は、特徴点学習部161と、代表画像生成部162の処理部を有している。
この図が示すように第2の実施形態による重要物体認識装置は、第1の実施形態の重要物体認識装置に、物体要約生成装置16が備えられた構成となっている。この物体要約生成装置16は、物体抽出装置12および記録装置15と接続されているものとする。なお、これら画像撮影装置11、物体抽出装置12、重要度算出装置13、学習装置14、記録装置15、物体要約生成装置16の各機能は一つのコンピュータ装置に備えられていてもよいし、複数のコンピュータ装置それぞれに分散されて互いにネットワークケーブル等で接続されることにより重要物体認識装置1を構成するようにしてもよい。そして物体要約生成装置16は、特徴点学習部161と、代表画像生成部162の処理部を有している。
そして、第2の実施形態による重要物体認識装置においては、物体要約生成装置16が、物体抽出装置12によって算出された画像断片の各クラスタについて、閾値以上の割合で出現する特徴点の集合を生成し、その特徴点を元に画像断片を合成して、代表画像を作成する処理を行なう。
図12は第2の実施形態による重要物体認識装置の処理フローを示す図である。
次に、第2の実施形態による重要物体認識装置の処理フローについて説明する。
図1の実施形態による重要物体認識装置の処理において、既に、物体抽出装置12の処理によって各静止画像の特徴点リストが生成されている。物体要約生成装置16の特徴点学習部161(クラスタ毎特徴点リスト生成手段、特徴点抽出手段)は、その各静止画像の特徴点リストを物体抽出装置12より取得して(ステップS21)、上述のクラスタリングの結果に基づき、各クラスタに属する画像断片の特徴点リスト(クラスタ毎特徴点リスト)を生成する(ステップS22)。そして、物体要約生成装置16の特徴点学習部161が、各クラスタそれぞれについて、クラスタに含まれる各画像断片の特徴点のうち、閾値以上の割合で複数の画像断片に存在する複数の特徴点を抽出する(ステップS23)。
次に、第2の実施形態による重要物体認識装置の処理フローについて説明する。
図1の実施形態による重要物体認識装置の処理において、既に、物体抽出装置12の処理によって各静止画像の特徴点リストが生成されている。物体要約生成装置16の特徴点学習部161(クラスタ毎特徴点リスト生成手段、特徴点抽出手段)は、その各静止画像の特徴点リストを物体抽出装置12より取得して(ステップS21)、上述のクラスタリングの結果に基づき、各クラスタに属する画像断片の特徴点リスト(クラスタ毎特徴点リスト)を生成する(ステップS22)。そして、物体要約生成装置16の特徴点学習部161が、各クラスタそれぞれについて、クラスタに含まれる各画像断片の特徴点のうち、閾値以上の割合で複数の画像断片に存在する複数の特徴点を抽出する(ステップS23)。
この特徴点の抽出処理は、第1の実施形態と同様に、
1)画像断片a,bにおける全ての特徴点の組についてユークリッド距離を求め、閾値以下の距離の組を候補組とする。
2)候補組中の任意の3組の特徴点のユークリッド距離(x1,y1),(x2,y2),(x3,y3)についてx1からy1へ、x2からy2へ、x3からy3へ変換する単一のアフィン変換が存在するとき、この3組の特徴点を対応する組とみなす。この操作をクラスタ内の全ての画像断片の2つの組について適用し、特徴点の対応関係のリストを生成する。次に、クラスタ内に閾値以上の割合で出現する特徴点を以下のように列挙する。
a)i番目の画像断片におけるj番目の特徴点について、上記2)の処理結果により他の画像断片における特徴点と対応関係があるかをチェックする。
b)上記aの処理においてiおよびjの値を1つずつ加えていき、各画像断片それぞれの各特徴点について同様の処理を行なう。
c)ある特徴点について、他の画像断片内の特徴点との対応関係が幾つの画像断片にわたっているかをカウントする。
d)ある特徴点について、他の画像断片内の特徴点との対応関係が、閾値以上の画像断片にわたって存在する特徴点を代表特徴点とする。
1)画像断片a,bにおける全ての特徴点の組についてユークリッド距離を求め、閾値以下の距離の組を候補組とする。
2)候補組中の任意の3組の特徴点のユークリッド距離(x1,y1),(x2,y2),(x3,y3)についてx1からy1へ、x2からy2へ、x3からy3へ変換する単一のアフィン変換が存在するとき、この3組の特徴点を対応する組とみなす。この操作をクラスタ内の全ての画像断片の2つの組について適用し、特徴点の対応関係のリストを生成する。次に、クラスタ内に閾値以上の割合で出現する特徴点を以下のように列挙する。
a)i番目の画像断片におけるj番目の特徴点について、上記2)の処理結果により他の画像断片における特徴点と対応関係があるかをチェックする。
b)上記aの処理においてiおよびjの値を1つずつ加えていき、各画像断片それぞれの各特徴点について同様の処理を行なう。
c)ある特徴点について、他の画像断片内の特徴点との対応関係が幾つの画像断片にわたっているかをカウントする。
d)ある特徴点について、他の画像断片内の特徴点との対応関係が、閾値以上の画像断片にわたって存在する特徴点を代表特徴点とする。
次に代表画像生成部162(代表画像生成手段)が、前記抽出した特徴点を持つ複数の画像断片を用いて、抽出した特徴点を重ね合わせて、それら複数の画像断片を合成する処理を行なう(ステップS24)。そして、これにより1つのクラスタに対する代表画像が生成できる。この代表画像の生成においては、代表特徴点を閾値以上の個数もしくは割合で含む画像断片を抽出する。次に、それぞれの共通特徴点の座標が揃うように各画像断片を回転、移動、縮小、拡大により変形させて、それぞれのピクセルの平均値を求めて代表画像を生成する。また物体要約生成装置16は生成した代表画像をクラスタのIDに対応付けて記録装置15の代表画像記憶部へ記録する。
以上の処理により、クラスタリング結果により得られた複数の画像断片から、その代表画像を生成することができる。
以上の処理により、クラスタリング結果により得られた複数の画像断片から、その代表画像を生成することができる。
図13は第3の実施形態による重要物体認識装置の構成を示すブロック図である。
この図が示すように第3の実施形態による重要物体認識装置は、第2の実施形態の重要物体認識装置に、要約表示装置17が備えられた構成となっている。この要約表示装置17は、記録装置15と接続されているものとする。なお、これら画像撮影装置11、物体抽出装置12、重要度算出装置13、学習装置14、記録装置15、物体要約生成装置16、要約表示装置17の各機能は一つのコンピュータ装置に備えられていてもよいし、複数のコンピュータ装置それぞれに分散されて互いにネットワークケーブル等で接続されることにより重要物体認識装置1を構成するようにしてもよい。
この図が示すように第3の実施形態による重要物体認識装置は、第2の実施形態の重要物体認識装置に、要約表示装置17が備えられた構成となっている。この要約表示装置17は、記録装置15と接続されているものとする。なお、これら画像撮影装置11、物体抽出装置12、重要度算出装置13、学習装置14、記録装置15、物体要約生成装置16、要約表示装置17の各機能は一つのコンピュータ装置に備えられていてもよいし、複数のコンピュータ装置それぞれに分散されて互いにネットワークケーブル等で接続されることにより重要物体認識装置1を構成するようにしてもよい。
そして、第3の実施形態による重要物体認識装置においては、要約表示装置17(代表画像表示手段)が、重要度算出装置13によって算出された重要度を基準として、重要な物体の画像に相当する画像断片を有するクラスタの情報を取得し、その代表画像を記録装置15から読み取って表示部に出力する処理を行なう。例えば、要約表示装置17は、各動画像に対し、重要度の高いクラスタを上位から定数個取得し、その代表画像を表示部に出力する。なお、この処理は、画像断片のクラスタ、そのクラスタの情報から物体要約生成装置16が生成した代表画像、およびそれぞれのクラスタの重要度のみの各情報で処理を実現できるため、視線情報は必須ではなく、視線計測部112を持たない画像撮影装置11、つまり一般的なカメラ等で撮影された、またはアニメーション等の人工的に作り出された画像に対しても代表画像を出力する処理を行うことができる。また、視線情報が利用可能であれば、被注視回数や被注視時間を元にクラスタを選択するようにしても良い。
図14は第4の実施形態による重要物体認識装置の構成を示すブロック図である。
この図が示すように第4の実施形態による重要物体認識装置は、第2の実施形態の重要物体認識装置に、ユーザ嗜好解析装置18が備えられた構成となっている。このユーザ嗜好解析装置18は、画像撮影装置11および記録装置15と接続されているものとする。なお、これら画像撮影装置11、物体抽出装置12、重要度算出装置13、学習装置14、記録装置15、物体要約生成装置16、ユーザ嗜好解析装置18の各機能は一つのコンピュータ装置に備えられていてもよいし、複数のコンピュータ装置それぞれに分散されて互いにネットワークケーブル等で接続されることにより重要物体認識装置1を構成するようにしてもよい。そして、ユーザ嗜好解析装置18は、ユーザ嗜好学習部181と、異常検出部182の機能部を有している。
この図が示すように第4の実施形態による重要物体認識装置は、第2の実施形態の重要物体認識装置に、ユーザ嗜好解析装置18が備えられた構成となっている。このユーザ嗜好解析装置18は、画像撮影装置11および記録装置15と接続されているものとする。なお、これら画像撮影装置11、物体抽出装置12、重要度算出装置13、学習装置14、記録装置15、物体要約生成装置16、ユーザ嗜好解析装置18の各機能は一つのコンピュータ装置に備えられていてもよいし、複数のコンピュータ装置それぞれに分散されて互いにネットワークケーブル等で接続されることにより重要物体認識装置1を構成するようにしてもよい。そして、ユーザ嗜好解析装置18は、ユーザ嗜好学習部181と、異常検出部182の機能部を有している。
そして、第4の実施形態による重要物体認識装置においては、人の注視の向き方に個人差が存在し、またその時の人の思考状態(何かに集中している、上の空である等)に大きく依存することに注目し、ユーザが普段どのような物体を注視しているかを学習して、ある状況下において注視がなされなかった場合に警告を発するものである。
図15は第4の実施形態による重要物体認識装置の処理フローを示す図である。
次に、第4の実施形態による重要物体認識装置の処理フローについて説明する。
ユーザ嗜好解析装置18は、ユーザの注視の向きの傾向を解析し、本来見るべき物体が注視されていないと判定したときに注意喚起を行うものとする。この処理方法は学習フェーズと運用フェーズに分かれており、どちらのフェーズにおいても学習装置14の視線情報解析部142の機能を必要とする。
次に、第4の実施形態による重要物体認識装置の処理フローについて説明する。
ユーザ嗜好解析装置18は、ユーザの注視の向きの傾向を解析し、本来見るべき物体が注視されていないと判定したときに注意喚起を行うものとする。この処理方法は学習フェーズと運用フェーズに分かれており、どちらのフェーズにおいても学習装置14の視線情報解析部142の機能を必要とする。
まず学習フェーズにおいては、ユーザ嗜好学習部181(重要画像断片判定手段、注視画像断片判定手段)が重要度および被注視回数(または被注視時間)を元にユーザの嗜好を学習する。重要度は一般的な注視の向きやすさを示す指標とみなすことができるため、重要度と実際の被注視回数(または被注視時間)とのずれを個人差と考えることができる。よって、ユーザ嗜好学習部181は、重要度が高いにもかかわらず被注視回数が少ない(または被注視時間が長い)クラスタがある場合、ユーザに重要な物体があると注意喚起すべきと判断する。あるいはユーザが複数存在し、他のユーザの情報を利用することができるようなサービスシナリオにおいては、複数のユーザの学習結果を重ね合わせて一般的に注意を払うべき物体群を抽出するような利用も可能である。
具体的には、ユーザ嗜好学習部181が、記録装置15から、図8で示すクラスタ毎重要度テーブルから各クラスタの重要度を読み取り(ステップS31)、また図9で示すクラスタ毎被注視回数テーブルから各クラスタの被注視回数を読み取る(ステップS32)。そして、重要度が重要度閾値よりも高いクラスタが画像中に存在するにもかかわらず、そのクラスタで示される画像断片の被注視回数が被注視回数閾値よりも低い場合には、そのクラスタで示される物体があると注意喚起すべきと判定する。
また、運用フェーズにおいては、異常検出部182(注意喚起情報出力手段)が、画像撮影装置11から動画像のデータの入力を受け付ける。そして異常検出部182は、ユーザの視界内に重要物体と一致する画像領域が存在するか否かを判定する。例えば、異常検出部182図7で示すユーザの注視点と、重要な物体として検出したクラスタの画像断片が静止画像に存在する座標とを比較して、一致していなければ、ヘッドマウントディスプレイを装着している場合には、ディスプレイ上にその注意喚起の表示を行なう。またヘッドマウントディスプレイを装着していない場合には、例えば、警告音や振動により注意喚起を行なう処理をするようにしてもよい。
つまり、ユーザ嗜好解析装置18においては、クラスタ毎の重要度とその重要度の閾値とに基づいて、動画像中から所定の間隔で抽出した各静止画像において重要な画像断片が含まれているか否かを判定し(ステップS33)、クラスタ毎の注視回数と当該注視回数の閾値または注視時間と当該注視時間の閾値に基づいて、動画像中から所定の間隔で抽出した各静止画像においてユーザが注視する画像断片を判定する(ステップS34)。そして、重要な画像断片と、ユーザが注視する画像断片とが異なる場合に、注意喚起情報を出力している(ステップS35)。
以上、本発明の実施形態について説明したが、上述の処理によれば、動画像中に存在する重要な物体を抽出し、その動画像中に存在する代表的な物体に対応する代表画像を作成することが可能となる。また日常生活において撮影した動画像の情報から、ユーザの周囲に存在する重要物体を認識し、物体の状況の把握が可能となり、また不注意時等の注意喚起をユーザに対して行なうことができる。
上述の重要物体認識装置における各装置は内部に、コンピュータシステムを有している。そして、上述した各処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記録装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
1・・・重要物体認識装置
11・・・画像撮影装置
12・・・物体抽出装置
13・・・重要度算出装置
14・・・学習装置
15・・・記録装置
16・・・物体要約生成装置
17・・・要約表示装置
18・・・ユーザ嗜好解析装置
11・・・画像撮影装置
12・・・物体抽出装置
13・・・重要度算出装置
14・・・学習装置
15・・・記録装置
16・・・物体要約生成装置
17・・・要約表示装置
18・・・ユーザ嗜好解析装置
Claims (6)
- 物体抽出装置と重要度算出装置と学習装置とを備えた重要物体認識装置であって、
前記物体抽出装置が、
入力を受け付けた動画像中から所定の間隔で静止画像を抽出する静止画像抽出手段と、
前記抽出した静止画像それぞれにおける特徴点の画像特徴量を算出する特徴量算出手段と、
前記静止画像を画像断片アルゴリズムを用いて複数の画像断片に分割する画像分割手段と、
前記静止画像それぞれについて前記分割によって得られた各画像断片を、前記算出した画像特徴量に基づいてクラスタリングし、それらクラスタリングされた各画像断片とその画像断片における特徴点における画像特徴量とを対応付けた画像断片毎特徴量情報を、前記クラスタリングの結果得られた画像断片のクラスタ毎に記憶部へ記録するクラスタ内画像断片特徴量算出手段と、を備え、
前記重要度算出装置が、
前記所定の間隔で抽出された各静止画像における各画素の顕著性の度合いを示す顕著性値を算出する顕著性値算出手段と、
前記画像断片に対応する前記静止画像中の画素の前記顕著性値に基づいて、当該画像断片の重要度を算出する画像断片重要度算出手段と、
前記動画像におけるユーザの注視点のデータと、前記画像断片の前記静止画像における座標とに基づいて、前記画像断片毎のユーザによる注視回数または注視時間を算出する注視情報算出手段と、を備え、
前記学習装置が、
前記クラスタ毎の重要度を、当該クラスタに属する前記画像断片の重要度に基づいて算出するクラスタ重要度算出手段と、
前記クラスタ毎の注視回数または注視時間を、当該クラスタに属する前記画像断片の前記注視回数または注視時間に基づいて算出するクラスタ毎注視情報算出手段と、
前記クラスタ毎の重要度と前記クラスタ毎の注視回数または注視時間とに基づいて、複数の前記クラスタが示す物体のうち重要物体を示すクラスタを特定する重要物体対応クラスタ特定手段と、を備える
ことを特徴とする重要物体認識装置。 - 物体要約生成装置をさらに備え、
当該物体要約生成装置は、
前記静止画像それぞれにおける特徴点の画像特徴量に基づいて、前記各クラスタに属する画像断片の特徴点の画像特徴量を示すクラスタ毎特徴点リストを生成するクラスタ毎特徴点リスト生成手段と、
前記各クラスタに属する画像断片それぞれの特徴点の画像特徴量に基づいて、閾値以上の割合で複数の異なる画像断片に存在する複数の特徴点を抽出する特徴点抽出手段と、
前記抽出した複数の特徴点に基づいて、当該特徴点を持つ各画像断片を合成して代表画像を生成する代表画像生成手段と、
を備えることを特徴とする請求項1に記載の重要物体認識装置。 - 要約表示装置をさらに備え、
当該要約表示装置は、前記クラスタ毎の重要度に基づいて重要クラスタを判定し、当該重要クラスタと判定したクラスタの前記代表画像を表示部へ表示する代表画像表示手段を備えることを特徴とする請求項1または請求項2に記載の重要物体認識装置。 - ユーザ嗜好解析装置をさらに備え、
前記ユーザ嗜好解析装置は、
前記クラスタ毎の重要度とその重要度の閾値とに基づいて、前記動画像中から所定の間隔で抽出した各静止画像において重要な画像断片が含まれているか否かを判定する重要画像断片判定手段と、
前記クラスタ毎の注視回数と当該注視回数の閾値または注視時間と当該注視時間の閾値に基づいて、前記動画像中から所定の間隔で抽出した各静止画像において前記ユーザが注視する画像断片を判定する注視画像断片判定手段と、
前記重要な画像断片と、前記ユーザが注視する画像断片とが異なる場合に、注意喚起情報を出力する注意喚起情報出力手段と、
を備えることを特徴とする請求項1から請求項3に記載の重要物体認識装置。 - 物体抽出装置と重要度算出装置と学習装置とを備えた重要物体認識装置における重要物体認識方法であって、
前記物体抽出装置の特徴量算出手段が、入力を受け付けた動画像中から所定の間隔で静止画像を抽出し、
前記物体抽出装置の特徴量算出手段が、前記抽出した静止画像それぞれにおける特徴点の画像特徴量を算出し、
前記物体抽出装置の画像分割手段が、前記静止画像を画像断片アルゴリズムを用いて複数の画像断片に分割し、
前記物体抽出装置のクラスタ内画像断片特徴量算出手段が、前記静止画像それぞれについて前記分割によって得られた各画像断片を、前記算出した画像特徴量に基づいてクラスタリングし、それらクラスタリングされた各画像断片とその画像断片における特徴点における画像特徴量とを対応付けた画像断片毎特徴量情報を、前記クラスタリングの結果得られた画像断片のクラスタ毎に記憶部へ記録し、
前記重要度算出装置の顕著性値算出手段が、前記所定の間隔で抽出された各静止画像における各画素の顕著性の度合いを示す顕著性値を算出し、
前記重要度算出装置の画像断片重要度算出手段が、前記画像断片に対応する前記静止画像中の画素の前記顕著性値に基づいて、当該画像断片の重要度を算出し、
前記重要度算出装置の注視情報算出手段が、前記動画像におけるユーザの注視点のデータと、前記画像断片の前記静止画像における座標とに基づいて、前記画像断片毎のユーザによる注視回数または注視時間を算出し、
前記学習装置のクラスタ重要度算出手段が、前記クラスタ毎の重要度を、当該クラスタに属する前記画像断片の重要度に基づいて算出し、
前記学習装置のクラスタ毎注視情報算出手段が、前記クラスタ毎の注視回数または注視時間を、当該クラスタに属する前記画像断片の前記注視回数または注視時間に基づいて算出し、
前記学習装置の重要物体対応クラスタ特定手段が、前記クラスタ毎の重要度と前記クラスタ毎の注視回数または注視時間とに基づいて、複数の前記クラスタが示す物体のうち重要物体を示すクラスタを特定する
ことを特徴とする重要物体認識方法。 - 重要物体認識装置のコンピュータを、
入力を受け付けた動画像中から所定の間隔で静止画像を抽出する静止画像抽出手段、
前記抽出した静止画像それぞれにおける特徴点の画像特徴量を算出する特徴量算出手段、
前記静止画像を画像断片アルゴリズムを用いて複数の画像断片に分割する画像分割手段、
前記静止画像それぞれについて前記分割によって得られた各画像断片を、前記算出した画像特徴量に基づいてクラスタリングし、それらクラスタリングされた各画像断片とその画像断片における特徴点における画像特徴量とを対応付けた画像断片毎特徴量情報を、前記クラスタリングの結果得られた画像断片のクラスタ毎に記憶部へ記録するクラスタ内画像断片特徴量算出手段、
前記所定の間隔で抽出された各静止画像における各画素の顕著性の度合いを示す顕著性値を算出する顕著性値算出手段、
前記画像断片に対応する前記静止画像中の画素の前記顕著性値に基づいて、当該画像断片の重要度を算出する画像断片重要度算出手段、
前記動画像におけるユーザの注視点のデータと、前記画像断片の前記静止画像における座標とに基づいて、前記画像断片毎のユーザによる注視回数または注視時間を算出する注視情報算出手段、
前記クラスタ毎の重要度を、当該クラスタに属する前記画像断片の重要度に基づいて算出するクラスタ重要度算出手段、
前記クラスタ毎の注視回数または注視時間を、当該クラスタに属する前記画像断片の前記注視回数または注視時間に基づいて算出するクラスタ毎注視情報算出手段、
前記クラスタ毎の重要度と前記クラスタ毎の注視回数または注視時間とに基づいて、複数の前記クラスタが示す物体のうち重要物体を示すクラスタを特定する重要物体対応クラスタ特定手段
として機能させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008143743A JP2009289210A (ja) | 2008-05-30 | 2008-05-30 | 重要物体認識装置および重要物体認識方法ならびにそのプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008143743A JP2009289210A (ja) | 2008-05-30 | 2008-05-30 | 重要物体認識装置および重要物体認識方法ならびにそのプログラム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2009289210A true JP2009289210A (ja) | 2009-12-10 |
Family
ID=41458333
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2008143743A Pending JP2009289210A (ja) | 2008-05-30 | 2008-05-30 | 重要物体認識装置および重要物体認識方法ならびにそのプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2009289210A (ja) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011215974A (ja) * | 2010-03-31 | 2011-10-27 | Aisin Aw Co Ltd | 画像処理システム |
| WO2016009695A1 (ja) * | 2014-07-18 | 2016-01-21 | ソニー株式会社 | 情報処理装置、情報処理方法、著作物提供システムおよびコンピュータプログラム |
| JP2017182706A (ja) * | 2016-03-31 | 2017-10-05 | ブラザー工業株式会社 | サーバ装置、情報処理方法およびプログラム |
| CN109773797A (zh) * | 2019-03-26 | 2019-05-21 | 北京儒博科技有限公司 | 教学机器人的教学方法、装置、存储介质及教学机器人 |
| JP2019179406A (ja) * | 2018-03-30 | 2019-10-17 | 株式会社フジタ | 画像判定システム |
-
2008
- 2008-05-30 JP JP2008143743A patent/JP2009289210A/ja active Pending
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011215974A (ja) * | 2010-03-31 | 2011-10-27 | Aisin Aw Co Ltd | 画像処理システム |
| WO2016009695A1 (ja) * | 2014-07-18 | 2016-01-21 | ソニー株式会社 | 情報処理装置、情報処理方法、著作物提供システムおよびコンピュータプログラム |
| JP2017182706A (ja) * | 2016-03-31 | 2017-10-05 | ブラザー工業株式会社 | サーバ装置、情報処理方法およびプログラム |
| JP2019179406A (ja) * | 2018-03-30 | 2019-10-17 | 株式会社フジタ | 画像判定システム |
| CN109773797A (zh) * | 2019-03-26 | 2019-05-21 | 北京儒博科技有限公司 | 教学机器人的教学方法、装置、存储介质及教学机器人 |
| CN109773797B (zh) * | 2019-03-26 | 2024-03-26 | 北京儒博科技有限公司 | 教学机器人的教学方法、装置、存储介质及教学机器人 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| AU2022252799B2 (en) | System and method for appearance search | |
| US12322175B2 (en) | System and method for detecting fabricated videos | |
| JP5554984B2 (ja) | パターン認識方法およびパターン認識装置 | |
| JP5649425B2 (ja) | 映像検索装置 | |
| Iosifidis et al. | Multi-view action recognition based on action volumes, fuzzy distances and cluster discriminant analysis | |
| Mou et al. | Group-level arousal and valence recognition in static images: Face, body and context | |
| EP2490171A1 (en) | Clothing feature extraction device, person retrieval device, and processing method thereof | |
| US20150242689A1 (en) | System and method for determining graph relationships using images | |
| CN110869938A (zh) | 人员识别系统和方法 | |
| Wan et al. | 3D SMoSIFT: three-dimensional sparse motion scale invariant feature transform for activity recognition from RGB-D videos | |
| US11544926B2 (en) | Image processing apparatus, method of processing image, and storage medium | |
| Esmaeili et al. | A comprehensive survey on facial micro-expression: approaches and databases | |
| Parde et al. | Face and image representation in deep CNN features | |
| Goudelis et al. | Fall detection using history triple features | |
| JP2009289210A (ja) | 重要物体認識装置および重要物体認識方法ならびにそのプログラム | |
| Shanmugavadivu et al. | Rapid face detection and annotation with loosely face geometry | |
| KR20210142342A (ko) | 나이 추정 장치 및 나이를 추정하는 방법 | |
| CN118486079A (zh) | 一种人物交互识别方法、装置、设备及存储介质 | |
| Wang et al. | Eye detection based on head contour geometry and wavelet subband projection | |
| Ishtiaq et al. | Deep learning based intelligent surveillance system | |
| Viitaniemi et al. | Detecting hand-head occlusions in sign language video | |
| Goudelis et al. | Identifying unintentional falls in action videos using the 3D Cylindrical Trace Transform | |
| Li et al. | Ultra high definition video saliency database | |
| CN119399836A (zh) | 基于深度识别的行为识别方法、装置、计算机设备、可读存储介质和程序产品 | |
| Fraz et al. | Human object annotation for surveillance video forensics |