JP2012203668A

JP2012203668A - 情報処理装置、物体認識方法、プログラム及び端末装置

Info

Publication number: JP2012203668A
Application number: JP2011067961A
Authority: JP
Inventors: Masaki Fukuchi; 正樹福地; Takayuki Ashigahara; 隆之芦ヶ原
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-03-25
Filing date: 2011-03-25
Publication date: 2012-10-22
Also published as: US20120243739A1; US8977055B2; CN102750554A

Abstract

【課題】画像が撮像される際の照明条件が変化する状況において画像に映る物体を精度よく認識すること。
【解決手段】２つ以上の画像の特徴量を記憶するデータベースであって、各画像に映る物体を識別するための識別情報と当該物体が撮像された際の照明条件に関する属性値とが各画像の特徴量に関連付けられている上記データベースと、撮像装置により撮像された入力画像を取得する取得部と、上記入力画像から決定される特徴量を上記データベースにより記憶されている各画像の特徴量と照合することにより、上記入力画像に映る物体を認識する認識部と、を備え、上記データベースにより記憶される特徴量は、互いに異なる照明条件で同じ物体を撮像した複数の画像の特徴量を含む、情報処理装置を提供する。
【選択図】図４

Description

本発明は、情報処理装置、物体認識方法、プログラム及び端末装置に関する。

近年、画像認識技術が高度化し、カメラからの入力画像に映る物体の位置や姿勢を画像特徴量のマッチングによって認識することが可能となっている。このような物体認識の応用例の１つは、拡張現実（ＡＲ：Augmented Reality）アプリケーションである。ＡＲアプリケーションでは、実世界に存在する建物、道路又はその他の物体を映した画像内で、様々な情報（例えば、広告情報、ナビゲーション情報又はゲームのための情報など）が物体に重畳して表示され得る。

下記特許文献１は、画像内のノイズ、スケールの変化及び回転に対してロバスト性を高めた画像特徴量を抽出するための、ＳＩＦＴ（Scale Invariant Feature Transform）法と呼ばれる手法を提案している。下記特許文献２は、処理性能の高くない携帯端末などでの画像特徴量の抽出に適した、処理コストのより低いRandom Ferns法と呼ばれる手法を提案している。

David G. Lowe，"Distinctive Image Features from Scale-Invariant Keypoints"，the International Journal of Computer Vision, 2004 Mustafa Oezuysal，"Fast Keypoint Recognition using Random Ferns"，IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.32, Nr.3, pp.448-461, March 2010

しかしながら、物体認識が実用される場面において、画像が撮像される際の照明条件の変化が、認識の精度を低下させる大きな要因となっている。例えば、屋外に存在する物体の見え方は、季節、時間帯又は天候などの条件によって著しく変化する。その結果、ＡＲアプリケーションが屋外の物体に情報を重畳させようとする際、事前に登録された特徴量と入力画像から決定される特徴量とが適合せず、物体を正しく認識できないという現象が起こり得る。上記特許文献１に記載されたＳＩＦＴ法に従って決定される特徴量は、照明の変化にもある程度ロバストな特徴量であるものの、上述したような物体の見え方の著しい変化を十分に吸収し得るものではない。また、一般に、屋外の多様な照明条件の変化を完全にモデル化することは困難である。

そこで、本発明は、画像が撮像される際の照明条件が変化する状況において、画像に映る物体を精度よく認識することのできる、情報処理装置、物体認識方法、プログラム及び端末装置を提供しようとするものである。

本発明のある実施形態によれば、２つ以上の画像の特徴量を記憶するデータベースであって、各画像に映る物体を識別するための識別情報と当該物体が撮像された際の照明条件に関する属性値とが各画像の特徴量に関連付けられている上記データベースと、撮像装置により撮像された入力画像を取得する取得部と、上記入力画像から決定される特徴量を上記データベースにより記憶されている各画像の特徴量と照合することにより、上記入力画像に映る物体を認識する認識部と、を備え、上記データベースにより記憶される特徴量は、互いに異なる照明条件で同じ物体を撮像した複数の画像の特徴量を含む、情報処理装置が提供される。

また、上記取得部は、上記入力画像が撮像された際の照明条件を表す照明条件データをさらに取得し、上記情報処理装置は、上記データベースにより記憶されている上記２つ以上の画像の特徴量から、上記照明条件データにより表される照明条件に近い照明条件で撮像された画像の特徴量を抽出するフィルタリング部、をさらに備え、上記認識部は、上記フィルタリング部により抽出される画像の特徴量を、上記入力画像から決定される特徴量と照合してもよい。

また、上記照明条件は、各画像が撮像された際の天候に関する第１の条件を含んでもよい。

また、上記取得部は、上記入力画像を撮像した撮像装置の位置を表す位置データと上記入力画像が撮像され又は取得された日時とに基づいて、上記第１の条件についての上記照明条件データを取得してもよい。

また、上記照明条件は、各画像が撮像された際の日付又は時刻に関する第２の条件を含んでもよい。

また、上記情報処理装置は、端末装置から送信される上記入力画像を受信し、上記認識部により認識される物体に関する情報を上記端末装置へ送信する通信部、をさらに備えてもよい。

また、上記情報処理装置は、端末装置から送信される上記入力画像を受信し、上記認識部により認識される物体に関する情報を上記端末装置へ送信する通信部、をさらに備え、上記取得部は、上記端末装置とは異なる装置から上記照明条件データを取得してもよい。

また、上記データベースにおいて、各画像に映る物体の位置を表す属性値が各画像の特徴量にさらに関連付けられており、上記取得部は、上記入力画像を撮像した上記撮像装置の位置を表す位置データをさらに取得し、上記フィルタリング部は、上記位置データにより表される上記撮像装置の位置に近い位置で撮像された物体についての画像の特徴量のみを抽出してもよい。

また、上記取得部は、上記入力画像を撮像した上記撮像装置の位置を表す位置データ、及び上記入力画像が撮像された際の照明条件を表す照明条件データの少なくとも一方をさらに取得し、上記情報処理装置は、上記撮像装置の位置又は上記照明条件に関する所定の単位ごとに上記認識部により各物体が認識された頻度を集計する集計部、をさらに備え、上記認識部は、新たに取得される入力画像に対応する上記撮像装置の位置又は上記照明条件について上記集計部により集計された頻度を参照し、当該頻度の高い物体を映した画像の特徴量を優先的に上記入力画像から決定される特徴量と照合してもよい。

また、本発明の別の実施形態によれば、２つ以上の画像の特徴量を記憶するデータベースであって、各画像に映る物体を識別するための識別情報と当該物体が撮像された際の照明条件に関する属性値とが各画像の特徴量に関連付けられている上記データベースを備える情報処理装置における物体認識方法であって、上記データベースにより記憶される特徴量は、互いに異なる照明条件で同じ物体を撮像した複数の画像の特徴量を含み、上記物体認識方法は、撮像装置により撮像された入力画像を取得するステップと、上記入力画像から決定される特徴量を上記データベースにより記憶されている各画像の特徴量と照合することにより、上記入力画像に映る物体を認識するステップと、を含む物体認識方法が提供される。

また、本発明の別の実施形態によれば、２つ以上の画像の特徴量を記憶するデータベースであって、各画像に映る物体を識別するための識別情報と当該物体が撮像された際の照明条件に関する属性値とが各画像の特徴量に関連付けられている上記データベースを備える情報処理装置を制御するコンピュータを、撮像装置により撮像された入力画像を取得する取得部と、上記入力画像から決定される特徴量を上記データベースにより記憶されている各画像の特徴量と照合することにより、上記入力画像に映る物体を認識する認識部と、として機能させるためのプログラムであって、上記データベースにより記憶される特徴量は、互いに異なる照明条件で同じ物体を撮像した複数の画像の特徴量を含む、プログラムが提供される。

また、本発明の別の実施形態によれば、２つ以上の画像の特徴量を記憶するデータベースであって、各画像に映る物体を識別するための識別情報と当該物体が撮像された際の照明条件に関する属性値とが各画像の特徴量に関連付けられており、互いに異なる照明条件で同じ物体を撮像した複数の画像の特徴量を記憶している上記データベースを有する情報処理装置との間で通信する通信部と、撮像装置により撮像された撮像画像又は当該撮像画像から決定される特徴量、及び当該撮像画像が撮像された際の照明条件に関するデータを、上記通信部から上記情報処理装置へ送信させる制御部と、を備える端末装置が提供される。

また、上記制御部は、拡張現実アプリケーションを実行する際に、上記撮像画像又は上記特徴量及び上記照明条件に関するデータを上記通信部から上記情報処理装置へ送信させてもよい。

以上説明したように、本発明に係る情報処理装置、物体認識方法、プログラム及び端末装置によれば、画像が撮像される際の照明条件が変化する状況において画像に映る物体を精度よく認識することができる。

本技術が適用され得る物体認識システムの概要を示す説明図である。入力画像の第１の例を示す説明図である。入力画像の第２の例を示す説明図である。入力画像の第３の例を示す説明図である。第１の実施形態に係る端末装置の構成の一例を示すブロック図である。第１の実施形態に係る物体認識サーバの構成の一例を示すブロック図である。第１の実施形態に係るデータベースの構成の一例を示す説明図である。第１の実施形態に係る物体認識処理の流れの一例を示すフローチャートである。第２の実施形態に係る端末装置の構成の一例を示すブロック図である。第２の実施形態に係る物体認識サーバの構成の一例を示すブロック図である。照明条件データの取得方法の第１の例について説明するための説明図である。照明条件データの取得方法の第２の例について説明するための説明図である。照明条件データの取得方法の第３の例について説明するための説明図である。第２の実施形態に係るデータベースの構成の一例を示す説明図である。第２の実施形態に係る物体認識処理の流れの一例を示すフローチャートである。位置フィルタリング処理の流れの一例を示すフローチャートである。照明条件フィルタリング処理の流れの一例を示すフローチャートである。フィルタリング結果の一例について説明するための説明図である。第３の実施形態に係る物体認識サーバの構成の一例を示すブロック図である。頻度集計データの構成の一例を示す説明図である。第３の実施形態に係る物体認識処理の流れの一例を示すフローチャートである。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付すことにより重複説明を省略する。

また、以下の順序にしたがって当該「発明を実施するための形態」を説明する。
１．第１の実施形態
１−１．システムの概要
１−２．端末装置の構成例
１−３．サーバの構成例
１−４．処理の流れ
１−５．第１の実施形態のまとめ
２．第２の実施形態
２−１．端末装置の構成例
２−２．サーバの構成例
２−３．処理の流れ
２−３．第２の実施形態のまとめ
３．第３の実施形態
３−１．サーバの構成例
３−２．処理の流れ
３−３．第３の実施形態のまとめ

＜１．第１の実施形態＞
［１−１．システムの概要］
図１は、本明細書で開示する技術が適用され得る物体認識システムの概要を示す説明図である。図１を参照すると、第１の実施形態に係る物体認識システム１が示されている。物体認識システム１は、端末装置１００及び物体認識サーバ２００を含む。

端末装置１００は、物体認識の対象となる画像を物体認識サーバ２００へ送信する装置である。端末装置１００は、スマートフォン又はＰＤＡ（Personal Digital Assistant）などの、ユーザにより携帯される携帯端末であってもよい。また、端末装置１００は、ＰＣ（Personal Computer）、デジタル家電機器、ゲーム機器又はデジタルカメラなどのその他の種類の装置であってもよい。

図１の例では、端末装置１００は、撮像装置１２０を有する。撮像装置１２０は、実空間１を撮像して画像を生成する。端末装置１００は、撮像装置１２０により生成される画像を物体認識サーバ２００へ送信する。そして、端末装置１００は、送信した画像に映る物体に関する情報を、物体認識サーバ２００から受信する。端末装置１００は、物体認識サーバ２００から受信される情報を、例えばＡＲアプリケーション又はその他の種類のアプリケーションのために利用する。

なお、撮像装置１２０は、端末装置１００とは別体に構成される装置であってもよい。例えば、端末装置１００は、デジタルスチルカメラにより撮像された画像をＵＳＢ（Universal Serial Bus）などの接続線又はリムーバブルメディアを介して取得し、取得した画像を物体認識サーバ２００へ送信してもよい。

物体認識サーバ２００は、端末装置１００に物体認識サービスを提供する情報処理装置である。物体認識サーバ２００は、ネットワーク３に接続され、端末装置１００との間で通信を行う。ネットワーク３は、インターネットであってもよく、又は企業ネットワークなどのプライベートネットワークであってもよい。物体認識サーバ２００は、端末装置１００から画像を受信し、受信した画像に映る物体を認識する。そして、物体認識サーバ２００は、認識した物体に関する情報を、端末装置１００へ送信する。

物体認識サーバ２００による物体の認識は、画像の特徴量の照合に基づいて行われる。物体認識サーバ２００は、実空間に存在する様々な物体を映した画像の特徴量をデータベースに蓄積しており、端末装置１００から受信される入力画像の特徴量とデータベース内の画像の特徴量とを照合することにより、入力画像に映る物体を認識する。

図２Ａ〜図２Ｃは、端末装置１００から物体認識サーバ２００へ送信される入力画像の例をそれぞれ示している。図２Ａに示した入力画像Ｉｍ０１、図２Ｂに示した入力画像Ｉｍ０２及び図２Ｃに示した入力画像Ｉｍ０３は、いずれも同じ物体５を映した画像である。物体５は、屋外の建物である。しかし、入力画像Ｉｍ０１、Ｉｍ０２及びＩｍ０３がそれぞれ撮像された際の照明条件は異なっており、各画像に映る物体５の見え方も変化している。例えば、入力画像Ｉｍ０１は、晴れている日の朝に撮像された画像である。入力画像Ｉｍ０１内で、物体５には他の建物の影が映っている。入力画像Ｉｍ０２は、曇った日の昼に撮像された画像である。入力画像Ｉｍ０２内で、物体５には他の建物の影は映っていない。入力画像Ｉｍ０３は、晴れた日の夜に撮像された画像である。入力画像Ｉｍ０３内で、物体５に複数の照明の光が反射している。

このように照明条件が変化する状況において撮像された画像が入力されると、入力画像から決定される特徴量と事前に学習された物体の画像の特徴量との間の差分は大きくなる。そして、ある照明条件で撮像された入力画像に映る物体を正しく認識できないという事象が起こり得る。入力画像に映る物体を正しく認識できなければ、物体認識の結果に基づいて提供されるアプリケーションを正常に動作させることは困難となる。そこで、本明細書では、画像が撮像される際の照明条件が変化する状況においても画像に映る物体をロバストに認識することを可能とする技術について、以下に詳細に説明する。

［１−２．端末装置の構成例］
図３は、第１の実施形態に係る端末装置１００の構成の一例を示すブロック図である。図３を参照すると、端末装置１００は、通信部１１０、撮像部１２０、入力部１４０、表示部１５０、記憶部１６０及び制御部１７０を備える。

（通信部）
通信部１１０は、制御部１７０による制御の下で、物体認識サーバ２００との間の通信を行う。例えば、通信部１１０は、後に説明する物体認識要求を物体認識サーバ２００へ送信する。物体認識要求には、物体認識の対象となる入力画像又は入力画像から決定される特徴量が含まれ得る。また、通信部１１０は、物体認識要求への応答として物体認識サーバ２００から送信される物体認識の結果を受信する。

（撮像部）
撮像部１２０は、図１に例示した撮像装置１２０に相当するカメラモジュールである。撮像部１２０は、ＣＣＤ（Charge Coupled Device）又はＣＭＯＳ（Complementary Metal Oxide Semiconductor）などの撮像素子を用いて実空間を撮像することにより画像を生成する。

（入力部）
入力部１４０は、ユーザが端末装置１００を操作し又は端末装置１００へ情報を入力するために使用される入力デバイスである。入力部１４０は、例えば、キーボード、キーパッド、マウス、ボタン、スイッチ又はタッチパネルなどを含み得る。入力部１４０は、画像に映るユーザのジェスチャを認識するジェスチャ認識モジュール、又はユーザの発する音声コマンドを認識する音声認識モジュールなどを含んでもよい。

（表示部）
表示部１５０は、ＬＣＤ（Liquid Crystal Display）、ＯＬＥＤ（Organic light-Emitting Diode）又はＣＲＴ（Cathode Ray Tube）などにより構成される表示モジュールである。表示部１５０の画面上には、例えば、通信部１１０により受信される物体認識の結果に基づいて提供されるアプリケーションの画像（例えば、撮像画像に映る特定の物体にＡＲのオブジェクトが重畳された画像）が表示される。表示部１５０は、端末装置１００の一部であってもよく、又は端末装置１００とは別体に構成されてもよい。また、表示部１５０は、ユーザにより装着されるＨＭＤ（Head Mounted Display）であってもよい。

（記憶部）
記憶部１６０は、半導体メモリ又はハードディスクなどの記憶媒体を用いて、端末装置１００による処理のためのプログラム及びデータを記憶する。例えば、記憶部１６０は、撮像部１２０から出力される画像を記憶する。また、記憶部１６０は、物体認識サーバ２００から通信部１１０により受信される、入力画像に映る物体に関する情報を記憶する。

（制御部）
制御部１７０は、ＣＰＵ（Central Processing Unit）又はＤＳＰ（Digital Signal Processor）などのプロセッサに相当する。制御部１７０は、記憶部１６０又は他の記憶媒体に記憶されるプログラムを実行することにより、端末装置１００の機能全般を動作させる。例えば、制御部１７０は、入力部１４０を介してユーザによりＡＲアプリケーションが起動されると、撮像部１２０に実空間の画像を撮像させる。次に、制御部１７０は、通信部１１０から物体認識サーバ２００へ物体認識要求を送信させる。物体認識要求には、撮像部１２０により撮像された画像（又は他の画像）が入力画像として含まれ得る。その代わりに、制御部１７０は、撮像画像から特徴量を決定し、決定した特徴量を物体認識要求に含めてもよい。制御部１７０は、物体認識サーバ２００から物体認識の結果として入力画像に映る物体に関する情報が受信されると、当該情報に基づいてＡＲアプリケーションを動作させる。入力画像に映る物体に関する情報とは、例えば、入力画像に映る物体のＩＤ、当該物体の位置及び姿勢、又は入力画像に映る物体に重畳して表示すべき付加的な情報などであってよい。そして、制御部１７０は、ＡＲアプリケーションの画像を生成し、生成した画像を表示部１５０に表示させる。

［１−３．サーバの構成例］
図４は、第１の実施形態に係る物体認識サーバ２００の構成の一例を示すブロック図である。図４を参照すると、物体認識サーバ２００は、通信部２１０、データ取得部２２０、データベース２３０及び画像認識部２４０を備える。

（通信部）
通信部２１０は、ネットワーク３を介して端末装置１００との間の通信を行う。例えば、通信部２１０は、端末装置１００から送信される上述した物体認識要求を受信する。物体認識要求には、端末装置１００の撮像部１２０若しくは他の撮像装置により撮像された入力画像、又は当該入力画像から決定される特徴量が含まれる。通信部２１０は、物体認識要求に応じて画像認識部２４０により入力画像に映る物体が認識されると、当該物体に関する情報を端末装置１００へ送信する。

（データ取得部）
データ取得部２２０は、通信部２１０により受信される上述した入力画像又は当該入力画像から決定された特徴量を取得する。そして、データ取得部２２０は、取得した入力画像又は特徴量を、画像認識部２４０へ出力する。なお、データ取得部２２０は、通信部２１０を介することなく、例えば物体認識サーバ２００に直接接続される撮像装置又は記憶媒体などから、入力画像又は特徴量を取得してもよい。

（データベース）
データベース２３０は、半導体メモリ又はハードディスクなどの記憶媒体を用いて、２つ以上の画像の特徴量を記憶するデータベースである。データベース２３０において、各画像の特徴量には、各画像に映る物体を識別するための識別情報と当該物体が撮像された際の照明条件に関する属性値とが関連付けられる。データベース２３０は、互いに異なる照明条件で同じ物体を撮像した複数の画像を記憶する。

図５は、本実施形態に係るデータベース２３０の構成の一例を示す説明図である。図５を参照すると、データベース２３０は、「物体ＩＤ」、「特徴量ＩＤ」、「場所」、「日付」、「時刻」、「天候」及び「特徴量セット」という７つのデータ項目を有する。「物体ＩＤ」は、事前に学習される各画像に映る物体を識別するための識別子である。図５に例示したような識別子の文字列の代わりに、物体の位置を表す位置座標が識別情報として使用されてもよい。「特徴量ＩＤ」は、データベース２３０により記憶される特徴量セットを一意に識別するための識別子である。本実施形態では、１つの「物体ＩＤ」について複数の「特徴量ＩＤ」が存在し得る。「場所」、「日付」、「時刻」及び「天候」は、各特徴量セットに関連付けられる属性である。「場所」は、各特徴量セットに対応する画像が撮像された場所（地点又は領域）の位置座標である。「日付」は、各特徴量セットに対応する画像が撮像された日付である。「時刻」は、各特徴量セットに対応する画像が撮像された時刻である。「天候」は、各特徴量セットに対応する画像が撮像された際の天候を表す。「特徴量セット」には、各特徴量セットの実体のデータが格納される。各特徴量セットは、例えば、ＳＩＦＴ法又はRandom Ferns法に従って学習用画像（映っている物体が既知である画像）から決定された特徴量の集合であってよい。

図５の例において、特徴量ＩＤ「Ｆ１１」、「Ｆ１２」及び「Ｆ１３」は、同じ場所に位置する同じ物体Ｂ１を映した画像の特徴量セットのＩＤである。但し、これら３つの特徴量セットは、対応する画像が撮像された際の日付、時刻及び天候の少なくとも１つが互いに異なっている。これら日付、時刻及び天候は、照明条件に関する属性の一例である。このように、データベース２３０は、互いに異なる照明条件で同じ物体を撮像した複数の画像の特徴量を予め記憶している。なお、データベース２３０において、場所、日付、時刻及び天候という属性項目のうち一部の項目には、属性値が定義されなくてもよい。図５の例において、特徴量ＩＤ「Ｆ３１」の場所、日付及び時刻の値は“ａｎｙ（任意）”とされている。このようなデータは、例えば、フランチャイズチェーンの店舗、バス停の標識又は信号機など、複数の場所に出現し得る物体を撮像した画像の特徴量セットのために定義され得る。

（画像認識部）
画像認識部２４０は、入力画像から決定される特徴量をデータベース２３０により記憶されている各画像の特徴量と照合することにより、入力画像に映る物体を認識する。例えば、画像認識部２４０は、データ取得部２２０により入力画像が取得されると、ＳＩＦＴ法又はRandom Ferns法などの特徴量決定法に従って、入力画像から特徴量を決定する。そして、画像認識部２４０は、決定した入力画像の特徴量をデータベース２３０により記憶されている各画像の特徴量と照合する。そして、画像認識部２４０は、入力画像の特徴量と最もよく適合する特徴量と関連付けられている物体の物体ＩＤ並びに当該物体の位置及び姿勢を、物体認識の結果として認識する。また、画像認識部２４０は、ある一定のレベルを超えて入力画像の特徴量と適合する特徴量と関連付けられている複数の物体の物体ＩＤ並びに位置及び姿勢のリストを、物体認識の結果として認識してもよい。そして、画像認識部２４０は、認識結果として、入力画像に映る物体に関する情報を通信部２１０から端末装置１００へ送信させる。端末装置１００へ送信される情報には、画像認識部２４０により認識された物体ＩＤ、当該物体の位置及び姿勢（又はそれらのリスト）、並びに付加的な情報（例えば、当該物体に重畳して表示すべき情報など）が含まれ得る。

［１−４．処理の流れ］
図６は、本実施形態に係る物体認識サーバ２００による物体認識処理の流れの一例を示すフローチャートである。

図６を参照すると、まず、データ取得部２２０は、端末装置１００から送信される物体認識要求に含まれる入力画像を取得する（ステップＳ１００）。次に、画像認識部２４０は、データ取得部２２０により取得された入力画像から特徴量を決定する（ステップＳ１０２）。なお、物体認識要求に入力画像の特徴量が含まれる場合には、ステップＳ１００及びＳ１０２の代わりに、データ取得部２２０により当該入力画像の特徴量が取得され得る。

次に、画像認識部２４０は、データベース２３０により記憶されている各特徴量ＩＤについて、ステップＳ１０６からステップＳ１１０までの処理を繰り返す（ステップＳ１０４）。

ステップＳ１０６において、画像認識部２４０は、データベース２３０から取得される１セットの特徴量（以下、注目特徴量という）とステップＳ１０２において決定した入力画像の特徴量とを照合する（ステップＳ１０６）。画像認識部２４０は、例えば、照合処理において、注目特徴量に含まれる特徴点座標の３次元アフィン変換を行い、変換後の特徴点座標と入力画像の特徴点座標とが最もよく適合する物体の位置及び姿勢を決定する。また、画像認識部２４０は、その位置及び姿勢における特徴量の適合の度合いを表す照合スコアを算出する。そして、画像認識部２４０は、算出した照合スコアが所定の閾値を上回るか否かを判定する（ステップＳ１０８）。ここで、画像認識部２４０は、照合スコアが閾値を上回る場合には、注目特徴量の特徴量ＩＤ、位置及び姿勢並びに照合スコアを一時的にメモリに記録する（ステップＳ１１０）。

その後、データベース２３０により記憶されている複数の特徴量ＩＤについてのループが終了すると、画像認識部２４０は、一時的にメモリに記録した特徴量ＩＤのリストに基づいて、物体認識の結果を通信部２１０へ出力する（ステップＳ１１２）。ここで出力される物体認識の結果には、照合スコアの最も高い（又は照合スコアが上位Ｎ個の）特徴量ＩＤに関連付けられている物体ＩＤ、対応する位置及び姿勢、並びに付加的な情報が含まれ得る。

［１−５．第１の実施形態のまとめ］
ここまで、図１〜図６を用いて、第１の実施形態に係る端末装置１００及び物体認識サーバ２００について詳細に説明した。本実施形態によれば、物体認識サーバ２００は、２つ以上の画像の特徴量を照明条件に関する属性値と関連付けて記憶しているデータベースを有する。そして、物体認識サーバ２００は、端末装置１００からの物体認識要求に応じて、入力画像から決定される特徴量を上記データベースにより記憶されている各画像の特徴量と照合することにより、入力画像に映る物体を認識する。上記データベースには、互いに異なる照明条件で同じ物体を撮像した複数の画像の特徴量が含まれている。従って、入力画像が撮像される際の照明条件が様々に変化する状況においても、入力画像がいずれかの照明条件で撮像された学習済みの画像と適合する確率が高まり、入力画像に映る物体をより正確に認識することができる。

＜２．第２の実施形態＞
上述した第１の実施形態では、１つの物体について互いに異なる照明条件で撮像された複数の画像の特徴量がデータベースに予め記憶される。この場合、物体認識のための特徴量の照合処理に要する時間が長くなる。そこで、本節では、第２の実施形態として、照合処理に要する時間を短縮する仕組みについて説明する。

［２−１．端末装置の構成例］
図７は、第２の実施形態に係る端末装置３００の構成の一例を示すブロック図である。図７を参照すると、端末装置３００は、通信部１１０、撮像部１２０、測位部３３０、入力部１４０、表示部１５０、記憶部１６０及び制御部３７０を備える。

測位部３３０は、端末装置３００の撮像部１２０の位置を測定する測位モジュールである。例えば、測位部３３０は、ＧＰＳ（Global Positioning System）信号を受信して自装置の緯度、経度及び高度を測定するＧＰＳモジュールであってもよい。また、測位部３３０は、無線アクセスポイントから受信される無線信号の強度に基づいて自装置の位置を測定する測位センサであってもよい。また、測位部３３０は、撮像部１２０のレンズが向いている方位を測定する地磁気センサを含んでもよい。

制御部３７０は、第１の実施形態に係る制御部１７０と同様、記憶部１６０又は他の記憶媒体に記憶されるプログラムを実行することにより、端末装置３００の機能全般を動作させる。また、本実施形態において、制御部３７０は、通信部１１０から物体認識サーバ４００へ送信される物体認識要求に、物体認識サーバ４００での物体認識処理の効率化を支援するためのデータを付加し得る。例えば、後に具体的な例を挙げて説明するように、測位部３３０により測定される位置を表す位置データが物体認識要求に付加され得る。当該位置データは、撮像部１２０の向きを表す方位データを含んでもよい。また、入力画像が撮像された際の照明条件に関する日時又は天候などのデータも、物体認識要求に付加され得る。

［２−２．サーバの構成例］
図８は、第２の実施形態に係る物体認識サーバ４００の構成の一例を示すブロック図である。図８を参照すると、物体認識サーバ４００は、通信部２１０、データ取得部４２０、データベース４３０、画像認識部４４０及びフィルタリング部４５０を備える。

（データ取得部）
データ取得部４２０は、第１の実施形態に係る物体認識サーバ２００のデータ取得部２２０と同様、通信部２１０により受信される物体認識要求に含まれる入力画像又は入力画像の特徴量を取得する。また、本実施形態において、データ取得部４２０は、入力画像が撮像された際の照明条件を表す照明条件データをさらに取得する。データ取得部４２０は、照明条件データを通信部２１０を介して端末装置３００から取得してもよい。その代わりに、データ取得部４２０は、物体認識要求に応じて照明条件データを他の装置から取得してもよい。データ取得部４２０による照明条件データの取得方法の３つの例について、図９Ａ〜図９Ｃを用いて説明する。

図９Ａは、照明条件データの取得方法の第１の例について説明するための説明図である。図９Ａを参照すると、端末装置３００は、入力画像（又は入力画像の特徴量）のみを含む物体認識要求を物体認識サーバ４００へ送信する。物体認識サーバ４００のデータ取得部４２０は、物体認識要求が受信されると、例えばＮＴＰ（Network Time Protocol）サーバなどの外部のタイムサーバにアクセスし（又はサーバ内部の時計を参照し）、入力画像の受信日時を取得する。そして、データ取得部４２０は、取得した受信日時に応じて、照明条件データを決定する。

図９Ａには、一例としての照明条件データ４２２ａが示されている。照明条件データ４２２ａは、「日付」及び「時間帯」という２つのデータ項目を有する。「日付」は、入力画像が受信された日付である。「時間帯」は、入力画像が受信された時刻が属する時間帯を表す区分である。一例として、「時間帯」は、次のように区分されてよい：
〜時間帯区分〜
１：未明（０時〜３時）
２：明け方（３時〜日の出）
３：朝（日の出〜９時）
４：昼前（９時〜１２時）
５：昼過ぎ（１２時〜１５時）
６：夕方（１５時〜日没）
７：夜（日没〜２１時）
８：深夜（２１時〜２４時）

図９Ｂは、照明条件データの取得方法の第２の例について説明するための説明図である。図９Ｂを参照すると、端末装置３００は、入力画像（又は入力画像の特徴量）及び位置データを含む物体認識要求を、物体認識サーバ４００へ送信する。物体認識サーバ４００のデータ取得部４２０は、物体認識要求が受信されると、外部のタイムサーバにアクセスし又はサーバ内部の時計を参照し、入力画像の受信日時を取得する。その代わりに、端末装置３００は、入力画像が撮像された日時を物体認識要求にさらに含めてもよい。物体認識要求に含まれる位置データは、入力画像を撮像した撮像装置の位置（例えば、撮像装置の緯度及び経度。以下、撮像位置という）を表す。次に、データ取得部４２０は、外部の気象情報サーバにアクセスし、入力画像が撮像され又は取得された日時の撮像位置における天候を表す天候データを取得する。天候データには、例えば、１時間単位の日射量、雲量及び降水量などのデータが含まれ得る。そして、データ取得部４２０は、取得した日時及び天候データに応じて、照明条件データを決定する。

図９Ｂには、一例としての照明条件データ４２２ｂが示されている。照明条件データ４２２ｂは、「日付」、「時間帯」及び「天候」という３つのデータ項目を有する。「天候」は、例えば、天候データに含まれる日射量、雲量及び降水量などの値を所定の関数に代入することにより導かれる区分値（例えば、“快晴”を１０とする１０段階の値など）であってよい。

図９Ｃは、照明条件データの取得方法の第３の例について説明するための説明図である。図９Ｃを参照すると、ユーザは、端末装置３００から物体認識サーバ４００へ物体認識要求を送信させるにあたり、現在の天候を表す情報（例えば、“快晴”を１０とする１０段階の区分値）を入力する。また、端末装置３００は、外部のタイムサーバにアクセスし又は端末内部の時計を参照し、その時点の日時を取得する。そして、端末装置３００は、入力画像（又は入力画像の特徴量）、日時及び天候データを含む物体認識要求を、物体認識サーバ４００へ送信する。物体認識サーバ４００のデータ取得部４２０は、物体認識要求が受信されると、照明条件データを決定する。

図９Ｃには、一例としての照明条件データ４２２ｃが示されている。照明条件データ４２２ｃは、「日付」、「時間帯」及び「天候」という３つのデータ項目を有する。「日付」は、物体認識要求に含まれる日付である。「時間帯」は、物体認識要求に含まれる時刻が属する時間帯を表す区分である。「天候」は、物体認識要求に含まれる天候区分である。

なお、データ取得部４２０は、図９Ａ〜図９Ｃの例に限定されず、他の手法で照明条件データを取得してもよい。データ取得部４２０により取得される照明条件データは、入力画像が撮像された際の日付又は時刻に関する条件（以下、時間条件という）及び入力画像が撮像された際の天候に関する条件（以下、天候条件という）の少なくとも一方を含む。時間条件は、日付及び時間帯とは異なる種類のデータ（例えば、季節、月又は週など）を含んでもよい。また、天候条件は、図９Ａ〜図９Ｃに例示したものとは異なる区分により表されてもよい。

（データベース）
データベース４３０は、第１の実施形態に係るデータベース２３０と同様、２つ以上の画像の特徴量を記憶するデータベースである。データベース４３０においても、各画像の特徴量には、各画像に映る物体を識別するための識別情報と当該物体が撮像された際の照明条件に関する属性値とが関連付けられる。データベース４３０は、互いに異なる照明条件で同じ物体を撮像した複数の画像を記憶する。

図１０は、本実施形態に係るデータベース４３０の構成の一例を示す説明図である。図１０を参照すると、データベース４３０は、照明条件に関する属性項目として「日付」、「時間帯」及び「天候」という３つのデータ項目を有する。「日付」は、各特徴量セットに対応する画像が撮像された日付である。「時間帯」は、各特徴量セットに対応する画像が撮像された時刻が属する時間帯の区分（例えば、上述した８段階の区分）である。「日付」及び「時間帯」は、時間条件を構成する。「天候」は、各特徴量セットに対応する画像が撮像された際の天候の区分（例えば、上述した１０段階の区分）である。図１０の例では、「時間帯」及び「天候」について区分値のみを示している。

（画像認識部）
画像認識部４４０は、第１の実施形態に係る物体認識サーバ２００の画像認識部２４０と同様、入力画像から決定される特徴量をデータベース４３０により記憶されている各画像の特徴量と照合することにより、入力画像に映る物体を認識する。但し、本実施形態において、画像認識部４４０は、フィルタリング部４５０により抽出される特徴量のみを照合の対象とする。

（フィルタリング部）
フィルタリング部４５０は、データベース４３０により記憶されている画像の特徴量から、データ取得部４２０により取得される照明条件データにより表される照明条件に近い照明条件で撮像された画像の特徴量を抽出する。その際、フィルタリング部４５０は、さらに、データ取得部４２０により取得される撮像位置に近い位置で撮像された物体についての画像の特徴量のみを抽出してもよい。

［２−３．処理の流れ］
（物体認識処理）
図１１は、本実施形態に係る物体認識サーバ４００による物体認識処理の流れの一例を示すフローチャートである。

図１１を参照すると、まず、データ取得部４２０は、端末装置３００から送信される物体認識要求に含まれる入力画像を取得する（ステップＳ２０２）。また、データ取得部４２０は、物体認識要求に入力画像を撮像した撮像装置の位置を表す位置データが含まれる場合には、当該位置データを取得する（ステップＳ２０４）。また、データ取得部４２０は、照明条件データを取得する（ステップＳ２０６）。

次に、フィルタリング部４５０は、後に説明する位置フィルタリング処理を実行し、データベース４３０により記憶されている画像の特徴量から、撮像位置に近い位置で撮像された物体についての画像の特徴量を抽出する（ステップＳ２１０）。

次に、フィルタリング部４５０は、後に説明する照明条件フィルタリング処理を実行し、位置フィルタリング処理後の画像の特徴量から、照明条件データにより表される照明条件に近い照明条件で撮像された画像の特徴量をさらに抽出する（ステップＳ２２０）。

次に、画像認識部４４０は、データ取得部４２０により取得された入力画像から特徴量を決定する（ステップＳ２３２）。なお、物体認識要求に入力画像の特徴量が含まれる場合には、ステップＳ２０２及びＳ２３２の代わりに、データ取得部４２０により当該入力画像の特徴量が取得され得る。

次に、画像認識部４４０は、照明条件フィルタリング処理後の画像の特徴量に含まれる各特徴量ＩＤについて、ステップＳ２３６からステップＳ２４０までの処理を繰り返す（ステップＳ２３４）。

ステップＳ２３６において、画像認識部４４０は、注目特徴量とステップＳ２３２において決定した入力画像の特徴量とを照合する（ステップＳ２３６）。そして、画像認識部４４０は、照合の結果として算出される照合スコアが所定の閾値を上回るか否かを判定する（ステップＳ２３８）。ここで、画像認識部４４０は、照合スコアが閾値を上回る場合には、注目特徴量の特徴量ＩＤ、位置及び姿勢並びに照合スコアを一時的にメモリに記録する（ステップＳ２４０）。

その後、特徴量ＩＤについてのループが終了すると、画像認識部４４０は、一時的にメモリに記録した特徴量ＩＤのリストに基づいて、物体認識の結果を通信部２１０へ出力する（ステップＳ２４２）。

（位置フィルタリング処理）
図１２は、図１１のステップＳ２１０における位置フィルタリング処理の流れの一例を示すフローチャートである。

図１２を参照すると、フィルタリング部４５０は、データベース４３０により記憶されている各特徴量ＩＤについて、ステップＳ２１２からステップＳ２１６までの処理を繰り返す（ステップＳ２１１）。

ステップＳ２１２において、フィルタリング部４５０は、注目特徴量ＩＤのデータに位置属性の値が含まれるか否かを判定する（ステップＳ２１２）。位置属性の値は、例えば、図１０のデータ例における「場所」という項目で表される。図１０の例では、特徴量ＩＤ「Ｆ３１」のデータは、位置属性の値を有しない。フィルタリング部４５０は、注目特徴量ＩＤのデータに位置属性の値が含まれる場合には、注目特徴量ＩＤの位置属性が示す位置と入力画像の撮像位置との差分から位置スコアを算出する（ステップＳ２１３）。一方、フィルタリング部４５０は、注目特徴量ＩＤのデータに位置属性の値が含まれない場合には、位置スコアをゼロとする（ステップＳ２１４）。

次に、フィルタリング部４５０は、位置スコアが所定の閾値を下回るか否かを判定する（ステップＳ２１５）。ここで、フィルタリング部４５０は、位置スコアが閾値を下回る場合には、候補リストに注目特徴量の特徴量ＩＤを追加する（ステップＳ２１６）。

その後、データベース４３０により記憶されている複数の特徴量ＩＤについてのループが終了すると、フィルタリング部４５０は、位置フィルタリング処理の結果として候補リストを出力する（ステップＳ２１７）。

（照明条件フィルタリング処理）
図１３は、図１１のステップＳ２２０における照明条件フィルタリング処理の流れの一例を示すフローチャートである。

図１３を参照すると、フィルタリング部４５０は、位置フィルタリング処理により出力された候補リストに含まれる各特徴量ＩＤについて、ステップＳ２２２からステップＳ２２６までの処理を繰り返す（ステップＳ２２１）。なお、位置フィルタリング処理が省略される場合には、データベース４３０により記憶されている各特徴量ＩＤについて処理が繰り返される。

ステップＳ２２２において、フィルタリング部４５０は、注目特徴量ＩＤのデータに照明条件属性の値が含まれるか否かを判定する（ステップＳ２２２）。フィルタリング部４５０は、注目特徴量ＩＤのデータに照明条件属性の値が含まれる場合には、日付、時間帯区分及び天候区分の各々について、注目特徴量の属性値と照明条件データに記述されている入力画像の属性値との間の差分を算出する。そして、フィルタリング部４５０は、差分値を重み付け加算することにより、照明条件スコアを算出する（ステップＳ２２３）。一方、フィルタリング部４５０は、注目特徴量ＩＤのデータに照明条件属性の値が含まれない場合には、照明条件スコアをゼロとする（ステップＳ２２４）。

次に、フィルタリング部４５０は、照明条件スコアが所定の閾値を下回るか否かを判定する（ステップＳ２２５）。ここで、フィルタリング部４５０は、照明条件スコアが閾値を下回る場合には、候補リスト（位置フィルタリング処理における候補リストとは異なる新たなリスト）に注目特徴量の特徴量ＩＤを追加する（ステップＳ２２６）。

その後、フィルタリング部４５０は、ループが終了すると、照明条件フィルタリング処理の結果として新たな候補リストを出力する（ステップＳ２２７）。

なお、物体認識サーバ４００による処理の順序は、フローチャートに示した順序に限定されない。例えば、物体認識サーバ４００は、位置フィルタリング処理の前に照明条件フィルタリング処理を実行してもよい。また、物体認識サーバ４００は、位置フィルタリング処理及び照明条件フィルタリング処理の一方のみを実行してもよい。

また、位置フィルタリング処理及び照明条件フィルタリング処理におけるフィルタリングの条件は、上述した例に限定されない。例えば、フィルタリング部４５０は、照明条件フィルタリング処理において、１つの照明条件スコアを閾値と比較する代わりに、日付、時間帯区分及び天候区分の各々の差分値をそれぞれの閾値と比較してもよい。その場合、フィルタリング部４５０は、１つ、２つ又は３つ全ての差分値が閾値を下回る注目特徴量の特徴量ＩＤを、候補リストに追加し得る。

（処理結果の例）
図１４は、本実施形態における位置フィルタリング処理及び照明条件フィルタリング処理の結果の一例について説明するための説明図である。

図１４の上段には、データベース４３０に記憶されている位置フィルタリング処理の前の４つの画像の特徴量をそれぞれ象徴的に表す画像Ｉｍ１１、Ｉｍ１２、Ｉｍ２１及びＩｍ４１が示されている。画像Ｉｍ１１は、晴れた日の朝に物体Ｂ１を映した画像である。画像Ｉｍ１２は、曇りの日の昼に物体Ｂ１を映した画像である。画像Ｉｍ２１は、晴れた日の朝に物体Ｂ２を映した画像である。画像Ｉｍ４１は、晴れた日の朝に物体Ｂ４を映した画像である。なお、物体Ｂ４は、実空間内で物体Ｂ１の近くに位置している。

ここで、物体Ｂ１を映した入力画像を含む物体認識要求が、晴れている日に端末装置３００から受信されたものとする。当該物体認識要求は、物体Ｂ１の近くの撮像位置を示す位置データを含む。かかる物体認識要求に応じて、フィルタリング部４５０は、位置フィルタリング処理を行う。すると、物体Ｂ１の近くに存在しない物体Ｂ２を映した画像Ｉｍ２１の特徴量は、候補リストから除外される。図１４の中段には、位置フィルタリング後に画像Ｉｍ１１、Ｉｍ１２及びＩｍ４１が残されていることが示されている。

さらに、フィルタリング部４５０は、照明条件フィルタリング処理を行う。すると、曇りの日に撮像された画像Ｉｍ２１の特徴量は、候補リストから除外される。図１４の下段には、照明条件フィルタリング後に画像Ｉｍ１１及びＩｍ４１のみが残されていることが示されている。

その後、画像認識部４４０は、これら画像Ｉｍ１１及びＩｍ４１の特徴量と入力画像から決定される特徴量とを照合し、入力画像に物体Ｂ１が映っていることを認識する。

［２−３．第２の実施形態のまとめ］
ここまで、図７〜図１４を用いて、第２の実施形態に係る端末装置３００及び物体認識サーバ４００について詳細に説明した。本実施形態によれば、物体認識サーバ４００による物体の認識に先立って、入力画像が撮像された際の照明条件に近い照明条件で撮像された画像の特徴量がデータベースから選択的に抽出される。そして、抽出された画像の特徴量のみを対象として、物体認識処理が行われる。上記データベースには、互いに異なる照明条件で同じ物体を撮像した複数の画像の特徴量が含まれている。従って、入力画像が撮像される際の照明条件が様々に変化する状況において、特徴量の照合処理に要する時間の増大を抑制しつつ、入力画像に映る物体の認識の精度を高めることができる。

また、入力画像が撮像された際の照明条件は、各画像が撮像された際の日付又は時刻に関する時間条件及び天候に関する天候条件の少なくとも一方を含む。これら条件は、画像に映る物体の見え方に大きく影響を与える条件である。従って、時間条件又は天候条件の近さを基準にフィルタリングを行うことで、物体認識のために有意な画像の特徴量を効率的に抽出することができる。

また、時間条件及び天候条件のデータは、端末装置からサーバへ提供することも、サーバが端末装置とは異なる装置から取得することも可能である。端末装置とは異なる装置から時間条件及び天候条件のデータが取得される場合には、端末装置の実装が単純化されるため、開発コストを低く抑えながら上述した仕組みを実現することができる。

なお、物体認識サーバ４００は、端末装置３００から取得される入力画像の特徴量を、当該入力画像についての撮像位置及び照明条件と関連付けてデータベース４３０に追加的に登録してもよい。また、登録に際して、物体認識の結果が正しかったか否かをユーザに確認し、正しかったというフィードバックを受けた場合にのみ入力画像の特徴量をデータベース４３０に登録してもよい。

＜３．第３の実施形態＞
本節では、第３の実施形態として、照合処理に要する時間をさらに短縮する仕組みについて説明する。

［３−１．サーバの構成例］
図１５は、第３の実施形態に係る物体認識サーバ５００の構成の一例を示すブロック図である。図１５を参照すると、物体認識サーバ５００は、通信部２１０、データ取得部４２０、データベース４３０、画像認識部５４０、フィルタリング部４５０、集計部５６０及び頻度メモリ５７０を備える。

（集計部）
集計部５６０は、入力画像の撮像位置又は入力画像が撮像された際の照明条件に関する所定の単位ごとに、画像認識部５４０により各物体が認識された頻度を集計する。撮像位置に関する所定の単位とは、例えば、撮像装置が位置し得る地理的領域をメッシュ上に区分けした各領域であってよい。照明条件に関する所定の単位とは、例えば、時間帯区分若しくは天候区分の各区分、又はこれら区分の各組合せであってよい。そして、集計部５６０は、集計の結果を表す頻度集計データを頻度メモリ５７０に記憶させる。

（頻度メモリ）
頻度メモリ５７０は、半導体メモリ又はハードディスクなどの記憶媒体を用いて、集計部５６０により集計される各物体の認識の頻度を表す頻度集計データを記憶する。

図１６を参照すると、一例としての頻度集計データ５７２が示されている。頻度集計データは、「領域ＩＤ」、「照明条件区分」、「物体ＩＤ」及び「頻度」という４つのデータ項目を有する。「領域ＩＤ」は、区分けされた各領域を一意に識別するための識別子である。「照明条件区分」は、照明条件に関する単位に相当する区分である。「物体ＩＤ」は、画像認識部５４０により認識された物体の物体ＩＤである。「頻度」は、対応する「領域ＩＤ」、「照明条件区分」及び「物体ＩＤ」の組合せについて集計された頻度の値を表す。

（画像認識部）
画像認識部５４０は、第１の実施形態に係る物体認識サーバ２００の画像認識部２４０と同様、入力画像から決定される特徴量をデータベース４３０により記憶されている各画像の特徴量と照合することにより、入力画像に映る物体を認識する。また、本実施形態においても、画像認識部５４０は、フィルタリング部４５０により抽出される特徴量のみを照合の対象としてよい。さらに、本実施形態において、画像認識部５４０は、新たに取得される入力画像に対応する撮像位置及び照明条件の少なくとも一方について、集計部５６０により集計された物体ごとの頻度を参照し、頻度の高い物体を撮像した画像の特徴量を優先的に入力画像から決定される特徴量と照合する。

例えば、図１６に例示した頻度集計データ５７２において、領域Ａ_１、照明条件区分Ｌ_１について集計部５６０により集計された頻度は、物体Ｂ２（５０件）、物体Ｂ５（１０件）、物体Ｂ７（８件）の順に高い値を示している。従って、画像認識部５４０は、新たに取得される入力画像が領域Ａ_１において照明条件区分Ｌ_１に属する照明条件で撮像された画像であれば、当該入力画像の特徴量に対して物体Ｂ２を撮像した画像の特徴量を優先的に照合する。そして、画像認識部５４０は、例えば、優先的に照合した画像の特徴量が所定の閾値を上回る照合スコアを示す場合には、その照合スコアを示す物体が入力画像に映っていると認識する。

［３−２．処理の流れ］
図１７は、本実施形態に係る物体認識サーバ５００による物体認識処理の流れの一例を示すフローチャートである。

図１７を参照すると、まず、データ取得部４２０は、端末装置３００から送信される物体認識要求に含まれる入力画像を取得する（ステップＳ３０２）。また、データ取得部４２０は、物体認識要求に含まれる位置データを取得する（ステップＳ３０４）。さらに、データ取得部４２０は、照明条件データを取得する（ステップＳ３０６）。

次に、画像認識部５４０は、データ取得部４２０により取得された位置データ及び照明条件データに基づいて、撮像位置の属する領域及び照明条件区分に対応する頻度集計データを、頻度メモリ５７０から取得する（ステップＳ３０８）。次に、画像認識部５４０は、取得したデータに含まれる物体ＩＤを頻度の高い順にソートする（ステップＳ３１０）。

次に、画像認識部５４０は、データ取得部４２０により取得された入力画像から特徴量を決定する（ステップＳ３１２）。なお、物体認識要求に入力画像の特徴量が含まれる場合には、ステップＳ３０２及びＳ３１２の代わりに、データ取得部４２０により当該入力画像の特徴量が取得され得る。

次に、画像認識部５４０は、ステップＳ３１０においてソートされた頻度集計データ内の未処理の最上位の物体ＩＤに対応する画像の特徴量をデータベース４３０から取得する（ステップＳ３１４）。ここで取得される画像の特徴量は、照明条件フィルタリング処理によって抽出された画像の特徴量であってもよい。

次に、画像認識部５４０は、取得した特徴量とステップＳ３１２において決定した入力画像の特徴量とを照合する（ステップＳ３１６）。そして、画像認識部５４０は、照合の結果として算出される照合スコアが所定の閾値を上回るか否かを判定する（ステップＳ３１８）。ここで、照合スコアが閾値を上回っていない場合には、処理はステップＳ３１４に戻り、次に頻度の高い物体ＩＤに対応する画像の特徴量について処理が繰り返される。

一方、画像認識部５４０は、照合スコアが閾値を上回る場合には、照合の対象とした物体ＩＤにより識別される物体が入力画像に映っていると認識する。そして、画像認識部５４０は、物体認識の結果を通信部２１０へ出力する（ステップＳ３２０）。また、集計部５６０は、新たな物体認識の結果に基づいて、頻度メモリ５７０により記憶されている頻度集計データを更新する（ステップＳ３２２）。

［３−３．第３の実施形態のまとめ］
ここまで、図１５〜図１７を用いて、第３の実施形態に係る物体認識サーバ５００について詳細に説明した。本実施形態によれば、入力画像の撮像位置及び照明条件に関する所定の単位ごとに各物体が認識された頻度が集計される。そして、新たに入力画像が取得されると、当該入力画像に対応する撮像位置又は照明条件について集計された頻度の高い物体を撮像した画像の特徴量が、入力画像から決定される特徴量と優先的に照合される。即ち、入力画像に適合する可能性が高いと統計的に予測される画像の特徴量が他の特徴量よりも先に入力画像と照合されるため、物体認識の結果が出力されるまでの時間をさらに短縮することができる。

なお、ほぼ同じ場所（及び撮像装置の向き）で撮像された入力画像についての過去の物体認識の結果が存在する場合には、画像認識部５４０は、新たに特徴量の照合処理を実行することなく、過去の物体認識の結果を物体認識要求の送信元の端末装置３００へそのまま提供してもよい。

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

なお、本明細書において説明した端末装置と物体認識サーバとは、一体に構成される１つの装置であってもよい。また、各装置による一連の制御処理は、ソフトウェア、ハードウェア、及びソフトウェアとハードウェアとの組合せのいずれを用いて実現されてもよい。ソフトウェアを構成するプログラムは、例えば、各装置の内部又は外部に設けられる記憶媒体に予め格納される。そして、各プログラムは、例えば、実行時にＲＡＭ（Random Access Memory）に読み込まれ、ＣＰＵ（Central Processing Unit）などのプロセッサにより実行される。

１００，３００端末装置
１１０通信部
１２０撮像部
１７０，３７０制御部
２００，４００，５００情報処理装置（物体認識サーバ）
２１０通信部
２２０，４２０データ取得部
２３０，４３０データベース
２４０，４４０，５４０画像認識部
４５０フィルタリング部
５６０集計部

Claims

２つ以上の画像の特徴量を記憶するデータベースであって、各画像に映る物体を識別するための識別情報と当該物体が撮像された際の照明条件に関する属性値とが各画像の特徴量に関連付けられている前記データベースと、
撮像装置により撮像された入力画像を取得する取得部と、
前記入力画像から決定される特徴量を前記データベースにより記憶されている各画像の特徴量と照合することにより、前記入力画像に映る物体を認識する認識部と、
を備え、
前記データベースにより記憶される特徴量は、互いに異なる照明条件で同じ物体を撮像した複数の画像の特徴量を含む、
情報処理装置。
前記取得部は、前記入力画像が撮像された際の照明条件を表す照明条件データをさらに取得し、
前記情報処理装置は、前記データベースにより記憶されている前記２つ以上の画像の特徴量から、前記照明条件データにより表される照明条件に近い照明条件で撮像された画像の特徴量を抽出するフィルタリング部、をさらに備え、
前記認識部は、前記フィルタリング部により抽出される画像の特徴量を、前記入力画像から決定される特徴量と照合する、
請求項１に記載の情報処理装置。
前記照明条件は、各画像が撮像された際の天候に関する第１の条件を含む、請求項２に記載の情報処理装置。
前記取得部は、前記入力画像を撮像した撮像装置の位置を表す位置データと前記入力画像が撮像され又は取得された日時とに基づいて、前記第１の条件についての前記照明条件データを取得する、請求項３に記載の情報処理装置。
前記照明条件は、各画像が撮像された際の日付又は時刻に関する第２の条件を含む、請求項２に記載の情報処理装置。
前記情報処理装置は、
端末装置から送信される前記入力画像を受信し、前記認識部により認識される物体に関する情報を前記端末装置へ送信する通信部、
をさらに備える、請求項１に記載の情報処理装置。
前記情報処理装置は、
端末装置から送信される前記入力画像を受信し、前記認識部により認識される物体に関する情報を前記端末装置へ送信する通信部、
をさらに備え、
前記取得部は、前記端末装置とは異なる装置から前記照明条件データを取得する、
請求項２に記載の情報処理装置。
前記データベースにおいて、各画像に映る物体の位置を表す属性値が各画像の特徴量にさらに関連付けられており、
前記取得部は、前記入力画像を撮像した前記撮像装置の位置を表す位置データをさらに取得し、
前記フィルタリング部は、前記位置データにより表される前記撮像装置の位置に近い位置で撮像された物体についての画像の特徴量のみを抽出する、
請求項２に記載の情報処理装置。
前記取得部は、前記入力画像を撮像した前記撮像装置の位置を表す位置データ、及び前記入力画像が撮像された際の照明条件を表す照明条件データの少なくとも一方をさらに取得し、
前記情報処理装置は、前記撮像装置の位置又は前記照明条件に関する所定の単位ごとに前記認識部により各物体が認識された頻度を集計する集計部、をさらに備え、
前記認識部は、新たに取得される入力画像に対応する前記撮像装置の位置又は前記照明条件について前記集計部により集計された頻度を参照し、当該頻度の高い物体を映した画像の特徴量を優先的に前記入力画像から決定される特徴量と照合する、
請求項１に記載の情報処理装置。
２つ以上の画像の特徴量を記憶するデータベースであって、各画像に映る物体を識別するための識別情報と当該物体が撮像された際の照明条件に関する属性値とが各画像の特徴量に関連付けられている前記データベースを備える情報処理装置における物体認識方法であって、
前記データベースにより記憶される特徴量は、互いに異なる照明条件で同じ物体を撮像した複数の画像の特徴量を含み、
前記物体認識方法は、
撮像装置により撮像された入力画像を取得するステップと、
前記入力画像から決定される特徴量を前記データベースにより記憶されている各画像の特徴量と照合することにより、前記入力画像に映る物体を認識するステップと、
を含む物体認識方法。
２つ以上の画像の特徴量を記憶するデータベースであって、各画像に映る物体を識別するための識別情報と当該物体が撮像された際の照明条件に関する属性値とが各画像の特徴量に関連付けられている前記データベースを備える情報処理装置を制御するコンピュータを、
撮像装置により撮像された入力画像を取得する取得部と、
前記入力画像から決定される特徴量を前記データベースにより記憶されている各画像の特徴量と照合することにより、前記入力画像に映る物体を認識する認識部と、
として機能させるためのプログラムであって、
前記データベースにより記憶される特徴量は、互いに異なる照明条件で同じ物体を撮像した複数の画像の特徴量を含む、
プログラム。
２つ以上の画像の特徴量を記憶するデータベースであって、各画像に映る物体を識別するための識別情報と当該物体が撮像された際の照明条件に関する属性値とが各画像の特徴量に関連付けられており、互いに異なる照明条件で同じ物体を撮像した複数の画像の特徴量を記憶している前記データベースを有する情報処理装置との間で通信する通信部と、
撮像装置により撮像された撮像画像又は当該撮像画像から決定される特徴量、及び当該撮像画像が撮像された際の照明条件に関するデータを、前記通信部から前記情報処理装置へ送信させる制御部と、
を備える端末装置。
前記制御部は、拡張現実アプリケーションを実行する際に、前記撮像画像又は前記特徴量及び前記照明条件に関するデータを前記通信部から前記情報処理装置へ送信させる、請求項１２に記載の端末装置。