WO2015141523A1

WO2015141523A1 - 情報処理装置、情報処理方法及びコンピュータプログラム

Info

Publication number: WO2015141523A1
Application number: PCT/JP2015/056992
Authority: WO
Inventors: 賢一郎小林
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-03-20
Filing date: 2015-03-10
Publication date: 2015-09-24
Anticipated expiration: 2016-09-20
Also published as: JP2015184798A

Abstract

【課題】画像情報の認識結果を直感的に捉えさせることが可能な情報処理装置を提供する。【解決手段】画像に含まれる所定の物体に関連する情報である物体情報を取得する物体情報取得部と、前記物体情報取得部が取得した前記物体情報を用いて前記画像に含まれている前記物体の状態を表す文章を生成する文章生成部と、を備える、情報処理装置が提供される。かかる構成を有することにより、情報処理装置は、物体の状態を表す文章の提示によって、画像情報の認識結果を直感的に捉えさせることが可能となる。

Description

情報処理装置、情報処理方法及びコンピュータプログラム

　本開示は、情報処理装置、情報処理方法及びコンピュータプログラムに関する。

　画像情報を基に物体を認識する技術が広く用いられている（例えば特許文献１等参照）。例えば、画像情報から顔や所定の物体を認識する技術は、デジタルカメラ、スマートフォン、パーソナルコンピュータで動作する画像処理ソフトウェア、ロボット装置等で広く用いられている。

特開２０１３－１７５９５６号公報

　画像情報の認識結果は、画面上のＸ－Ｙの２軸、または奥行きを考慮した３軸上の位置関係として捉えることが出来る。しかし、この認識結果は物理的な数字情報として表現されるので、認識結果を直感的に判断することが難しい。

　そこで本開示では、画像情報の認識結果を直感的に捉えさせることが可能な、新規かつ改良された情報処理装置、情報処理方法及びコンピュータプログラムを提案する。

　本開示によれば、画像に含まれる所定の物体に関連する情報である物体情報を取得する物体情報取得部と、前記物体情報取得部が取得した前記物体情報を用いて前記画像に含まれている前記物体の状態を表す文章を生成する文章生成部と、を備える、情報処理装置が提供される。

　また本開示によれば、画像に含まれる所定の物体に関連する情報である物体情報を取得することと、取得した前記物体情報を用いて前記画像に含まれている前記物体の状態を表す文章を生成することと、を含む、情報処理方法が提供される。

　また本開示によれば、コンピュータに、画像に含まれる所定の物体に関連する情報である物体情報を取得することと、取得した前記物体情報を用いて前記画像に含まれている前記物体の状態を表す文章を生成することと、を実行させる、コンピュータプログラムが提供される。

　以上説明したように本開示によれば、画像情報の認識結果を直感的に捉えさせることが可能な、新規かつ改良された情報処理装置、情報処理方法及びコンピュータプログラムを提供することが出来る。

　なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態に係る画像処理装置１００の機能構成例を示す説明図である。本開示の一実施形態に係る画像処理装置１００の動作例を示す流れ図である。本開示の一実施形態に係る画像処理装置１００の動作例を示す流れ図である。画像位置言語情報変換部１２０による画像情報ｉ１０１の画像領域の分割例を示す説明図である。言語位置情報対応テーブルｉ１０２に格納される、領域名と言語としての名称との対応例である。程度副詞レベルテーブルｉ１０３に格納される、レベルと副詞との対応例である。画像入力装置１０から画像処理装置１００へ入力される画像情報ｉ１０１の例を示す説明図である。画像入力装置１０から画像処理装置１００へ入力される画像情報ｉ１０１の例を示す説明図である。再分割時の程度レベルの例を示す説明図である。画像処理装置１００が使用する文生成テンプレートｉ１０４の一例を示す説明図である。画像入力装置１０から画像処理装置１００へ入力される画像情報ｉ１０１の例を示す説明図である。画像入力装置１０から画像処理装置１００へ入力される画像情報ｉ１０１の別の例を示す説明図である。認識物体の重なりの状態の表現について示す説明図である。画像入力装置１０から画像処理装置１００へ入力される画像情報ｉ１０１の別の例を示す説明図である。画像入力装置１０から画像処理装置１００へ入力される画像情報ｉ１０１の別の例を示す説明図である。画像処理装置１００による、画像情報ｉ１０１から認識物体を除外する処理の一例を示す説明図である。本開示の一実施形態に係る画像処理装置１００の変形例を示す説明図である。検索条件との相違点の提示例を示す説明図である。画像検索処理のＧＵＩ（Ｇｒａｐｈｉｃａｌ　Ｕｓｅｒ　Ｉｎｔｅｒｆａｃｅ）の例である。本開示の一実施形態に係る画像処理装置１００の変形例を示す説明図である。ハードウェア構成例を示す説明図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　１．本開示の一実施形態
　　１．１．概要
　　１．２．機能構成例
　　１．３．動作例
　　１．４．変形例
　２．ハードウェア構成例
　３．まとめ

　＜１．本開示の一実施形態＞
　［１．１．概要］
　まず、本開示の好適な実施の形態について詳細に説明するにあたり、本実施形態の概要について説明する。上述したように、画像情報を基に物体を認識する技術が広く用いられ、画像情報から顔や所定の物体を認識する技術は、デジタルカメラ、スマートフォン、パーソナルコンピュータで動作する画像処理ソフトウェア、ロボット装置等で広く用いられている。

　このような既存の画像処理技術は、認識対象の物体が画像中のどの位置にあるかを、画面上のＸ－Ｙの２軸、または奥行きを考慮した３軸上の位置関係として捉えていた。しかし、この認識結果は物理的な数字情報として表現されるので、認識結果を直感的に判断することが難しい。特に、目の不自由な人に対して画像の認識結果を提示する場合、物理的な数字情報を提示しても、その人は、その画像がどのような画像であるのかを理解することは困難である。

　また健常者であっても、画像を注視することが難しい環境、例えば自動車を運転している際のカーナビゲーションシステムや、ウェアラブルコンピュータの使用時においては、どのような画像が認識されているのかの判断が困難となる。

　そこで、本件開示者らは、画像の認識結果を定性的な表現として提示するための技術について検討を行なった。そして本件開示者らは、以下で説明するように、画像の認識結果を言語情報に変換する処理を実行することで、画像情報の認識結果をユーザに直感的に捉えさせることが可能となる技術を想到するに至った。

　以上、本実施形態の概要について説明した。続いて、本開示の好適な実施の形態について詳細に説明する。まず、本開示の一実施形態に係る画像処理装置の機能構成例について説明する。

　［１．２．機能構成例］
　次に、図面を参照しながら本開示の一実施形態に係る画像処理装置の機能構成例について説明する。図１は、本開示の一実施形態に係る画像処理装置１００の機能構成例を示す説明図である。以下、図１を用いて本開示の一実施形態に係る画像処理装置１００の機能構成例について説明する。

　図１に示した画像処理装置１００は、画像入力装置１０から送られる画像情報ｉ１０１に対する画像処理を実行し、画像情報ｉ１０１に含まれる物体を認識し、その物体の位置関係を言語で表現することを目的とした装置である。なお、画像処理装置１００も画像情報ｉ１０１を提供する画像入力装置１０は、例えば画像を撮像するデジタルカメラ、スマートフォン、タブレット端末等の装置であってもよく、画像が記録されているパーソナルコンピュータ等の装置であってもよい。また画像入力装置１０が提供する画像情報ｉ１０１は、静止画であってもよく、動画であってもよい。

　図１に示したように、本開示の一実施形態に係る画像処理装置１００は、画像処理部１１０と、画像位置言語情報変換部１２０と、言語生成部１３０と、輪郭情報処理部１４０と、ＲＧＢ色名変換部１５０と、背景処理部１６０と、を含んで構成される。

　画像処理部１１０は、画像入力装置１０が提供する画像情報ｉ１０１に対する画像処理を実行し、画像情報ｉ１０１に含まれる物体を認識する。図１に示したように、画像処理部１１０は、物体認識部１１１と、画像認識領域設定部１１２と、物体位置情報抽出部１１３と、を含んで構成される。

　物体認識部１１１は、画像情報ｉ１０１に含まれている所定の物体の認識を実行する。物体認識部１１１が認識の対象とする物体は特定の物体に限定されるものではなく、様々な物体が認識の対象となり得る。物体認識部１１１は、画像情報ｉ１０１に含まれている物体の認識の実行により、画像情報ｉ１０１にどのような物体がいくつ存在しているか、を認識することが出来る。物体認識部１１１は、画像情報ｉ１０１に対する認識処理の結果として得られる認識物体に関する情報、例えば認識した物体の名称や、認識した物体の数の情報等を画像位置言語情報変換部１２０に送る。

　画像認識領域設定部１１２は、画像情報ｉ１０１に対して物体認識部１１１が物体の認識を実行する範囲を設定する。物体認識部１１１は、画像認識領域設定部１１２が設定した画像情報ｉ１０１の範囲に対して、画像情報ｉ１０１に含まれている所定の物体の認識を実行する。画像認識領域設定部１１２は、最初に画像情報ｉ１０１に対して物体認識部１１１が物体の認識を実行する際には画像情報ｉ１０１の全範囲について処理を実行するように領域を設定し、例えばユーザなどから、検出した物体の近傍について再認識の要求があれば、その物体の近傍に限定して処理を実行するように領域を設定してもよい。

　物体位置情報抽出部１１３は、物体認識部１１１が認識した、画像情報ｉ１０１に含まれている所定の物体の、画像情報ｉ１０１における位置を位置情報として抽出する。物体位置情報抽出部１１３は、画像情報ｉ１０１に含まれている所定の物体の重心の位置を、位置情報として抽出しても良い。物体位置情報抽出部１１３は、画像情報ｉ１０１に含まれている所定の物体の重心の位置を、位置情報として抽出する場合は、その重心の位置を積分により求めても良い。物体位置情報抽出部１１３は、画像情報ｉ１０１に含まれている所定の物体の位置情報を画像位置言語情報変換部１２０に送る。

　画像位置言語情報変換部１２０は、画像処理部１１０から送られてくる情報、具体的には、物体認識部１１１から送られる認識物体に関する情報、及び物体位置情報抽出部１１３が抽出した位置情報を、言語情報に変換する処理を実行する。画像位置言語情報変換部１２０は、言語情報として、画像情報ｉ１０１のどこにどのような物体が存在しているか、についての情報を生成する。画像位置言語情報変換部１２０による具体的な変換処理については、後に詳述するが、変換に際しては、画像位置言語情報変換部１２０は、言語位置情報対応テーブルｉ１０２と、程度副詞レベルテーブルｉ１０３と、を用いる。画像位置言語情報変換部１２０は、画像処理部１１０から送られてくる情報を言語情報に変換すると、その言語情報を言語生成部１３０に送る。

　言語生成部１３０は、画像位置言語情報変換部１２０から送られてくる言語情報を用いて、画像情報ｉ１０１の状態を表す言語情報ｉ１０５、すなわち画像情報ｉ１０１の状態を表す文章を生成する。本実施形態では、言語生成部１３０は、画像情報ｉ１０１の状態を表す文章の生成に際し、文生成テンプレートｉ１０４に格納されているテンプレートに、画像位置言語情報変換部１２０から送られてくる言語情報を適用することで、画像情報ｉ１０１の状態を表す文章を生成する。言語生成部１３０による、画像情報ｉ１０１の状態を表す文章の生成処理の詳細については後述する。

　輪郭情報処理部１４０は、画像処理部１１０から送られてくる情報を用いて、物体認識部１１１が認識した物体の輪郭の座標情報を取得する。輪郭情報処理部１４０は、物体の輪郭の座標情報の取得に際し、例えば公知のエッジ検出処理を用いることが出来る。輪郭情報処理部１４０は、物体の輪郭の座標情報を画像位置言語情報変換部１２０に送る。画像位置言語情報変換部１２０は、物体の輪郭の座標情報を取得することで、画像情報ｉ１０１に物体が複数存在する場合に、その物体が重なっているかどうかを判断することが出来るとともに、その重なりの状態に応じた言語情報を生成することが出来る。

　ＲＧＢ色名変換部１５０は、画像処理部１１０から送られてくる情報、具体的には、物体認識部１１１から送られる認識物体に関する情報を用いて、その認識物体の色を取得する。ＲＧＢ色名変換部１５０は、認識物体の色の情報を言語生成部１３０に送る。言語生成部１３０は、ＲＧＢ色名変換部１５０から認識物体の色の情報を得ることで、画像情報ｉ１０１の状態を表す文章に、物体認識部１１１が認識した物体の色の情報を加えることが出来る。

　背景処理部１６０は、画像情報ｉ１０１の背景がどのようなものであるかを取得する処理を実行する。具体的には、背景処理部１６０は、画像処理部１１０から送られてくる情報を用いて、物体認識部１１１が認識した認識物体を画像情報ｉ１０１から取り除く画像処理を実行する。そして背景処理部１６０は、認識物体を取り除いた画像情報ｉ１０１を画像検索装置２０に送る。画像検索装置２０は、画像について検索処理を実行する公知の装置を使用することが可能である。背景処理部１６０は、画像検索装置２０での検索結果を取得し、画像情報ｉ１０１の背景に関する情報を得る。背景処理部１６０は、画像情報ｉ１０１の背景に関する情報を言語生成部１３０に送る。言語生成部１３０は、背景処理部１６０から画像情報ｉ１０１の背景に関する情報を得ることで、画像情報ｉ１０１の状態を表す文章に、画像情報ｉ１０１の背景の情報を加える事ができる。

　以上、図１を用いて本開示の一実施形態に係る画像処理装置１００の機能構成例について説明した。続いて、本開示の一実施形態に係る画像処理装置１００の動作例について説明する。

　［１．３．動作例］
　図２Ａ及び図２Ｂは、本開示の一実施形態に係る画像処理装置１００の動作例を示す流れ図である。図２Ａ及び図２Ｂに示したのは、画像情報ｉ１０１から、画像情報ｉ１０１の状態を表す言語情報ｉ１０５を生成する際の、本開示の一実施形態に係る画像処理装置１００の動作例である。以下、図２Ａ及び図２Ｂを用いて本開示の一実施形態に係る画像処理装置１００の動作例について説明する。

　画像処理装置１００は、まず画像入力装置１０から画像情報ｉ１０１を入力する（ステップＳ１０１）。この画像情報ｉ１０１は静止画であってもよく、動画であっても良いが、まずは画像情報ｉ１０１が静止画である例を示す。画像入力装置１０から画像情報ｉ１０１を入力すると、続いて画像処理装置１００は、画像情報ｉ１０１に含まれる物体の認識を行なう（ステップＳ１０２）。このステップＳ１０２の認識処理は、例えば画像処理部１１０が、具体的には物体認識部１１１が実行する。画像処理装置１００は、ステップＳ１０２の認識処理により、物体の名称、物体の色、画像情報ｉ１０１における物体の大きさや位置を取得する。画像処理装置１００は、ステップＳ１０２の認識処理の際に、例えば、公知の物体認識処理を実行することが出来る。入力画像から、人物や自動車等の物体を認識するとともに、その認識した物体が何であるかを認識する技術は広く知られており、この物体認識処理は、例えばカメラの自動シャッタや監視カメラに適用されるなどして広く実用化されているものである。具体的には、この物体認識処理は、入力画像の解析により入力画像中の物体を認識し、その認識した物体が何であるかを、例えばデータベースなどに対する検索により取得することで、入力画像から何が写っているかを把握する処理である。

　画像情報ｉ１０１に含まれる物体の認識をステップＳ１０２で行なうと、続いて画像処理装置１００は、認識した物体が画像中のどの場所にあるかを抽出する。まず画像処理装置１００は、認識した物体の重心を算出する（ステップＳ１０３）。このステップＳ１０３の処理は、例えば画像処理部１１０が、具体的には物体位置情報抽出部１１３が実行する。ステップＳ１０３では、例えば認識した物体に対する積分により重心が算出されても良い。

　認識した物体の重心をステップＳ１０３で算出すると、続いて画像処理装置１００は、画像情報ｉ１０１の画像領域を分割する（ステップＳ１０４）。このステップＳ１０４の処理は、例えば画像位置言語情報変換部１２０が実行する。本実施形態では、画像位置言語情報変換部１２０は、画像全体のＸ－Ｙ座標の最大値を基に、Ｘ軸、Ｙ軸それぞれに対して３等分するように領域を分割する。

　図３は、画像位置言語情報変換部１２０による画像情報ｉ１０１の画像領域の分割例を示す説明図である。図３に示した例では、画像位置言語情報変換部１２０は、画像全体のＸ－Ｙ座標の最大値を基に、Ｘ軸、Ｙ軸それぞれに対して３等分するように領域を分割した上で、各領域にＡからＩまでのアルファベットで領域名を付与している。

　また画像位置言語情報変換部１２０は、分割した各領域に対して、言語としての名称を割り当てる。この割り当てに際しては、画像位置言語情報変換部１２０は言語位置情報対応テーブルｉ１０２を参照する。図４は、言語位置情報対応テーブルｉ１０２に格納される、領域名と言語としての名称との対応例である。例えば領域Ａであれば「左上」や「左の上」という名称に対応する。

　画像情報ｉ１０１の画像領域を分割すると、続いて画像処理装置１００は、認識した物体の重心が画像情報ｉ１０１のどの領域に位置しているかを判別する（ステップＳ１０５）。このステップＳ１０５の処理は、例えば画像位置言語情報変換部１２０が実行する。

　図６は、画像入力装置１０から画像処理装置１００へ入力される画像情報ｉ１０１の例を示す説明図である。図６では、人間の顔２００が画像情報ｉ１０１に存在している場合の例が示されている。上記ステップＳ１０２で、人間の顔２００の検出が行われ、上記ステップＳ１０３で、人間の顔２００の重心２０１の算出が行われる。そして、上記ステップＳ１０５で、認識した人間の顔２００の重心２０１が画像情報ｉ１０１のどの領域に位置しているかが判別される。図６に示した例では、重心２０１は領域Ａに位置していることが分かる。

　物体の重心が画像情報ｉ１０１のどの領域に位置しているかをステップＳ１０５で判別すると、続いて画像処理装置１００は、その重心のある領域の言語変換を行なう（ステップＳ１０６）。このステップＳ１０５の処理は、例えば画像位置言語情報変換部１２０が実行する。図６に示したように重心２０１は領域Ａに位置していることがステップＳ１０５で判別できれば、画像処理装置１００は、図４に一例を示した言語位置情報対応テーブルｉ１０２を参照し、ステップＳ１０６において、領域Ａを「左上」という単語に変換する。

　これで重心のある領域の言語変換が行われたが、画像処理装置１００は、その重心のある領域についてより細かく判別処理及び言語変換を行なっても良い。

　重心のある領域の言語変換をステップＳ１０６で行なうと、続いて画像処理装置１００は、その重心のある領域をさらに分割する（ステップＳ１０７）。このステップＳ１０７の処理は、例えば画像位置言語情報変換部１２０が実行する。本実施形態では、画像位置言語情報変換部１２０は、重心のある領域のＸ－Ｙ座標の最大値を基に、Ｘ軸、Ｙ軸それぞれに対して３等分するように領域を分割する。

　重心のある領域を分割すると、続いて画像処理装置１００は、認識した物体の重心が、重心のある領域の中の、どの分割後の領域に位置しているかを判別する。そして画像処理装置１００は、認識した物体の重心が、重心のある領域の中の、どの分割後の領域に位置しているかを判別すると、その位置に応じた程度を示す副詞を、上記ステップＳ１０６で変換した言語（単語）に付与する（ステップＳ１０８）。このステップＳ１０８の処理は、例えば画像位置言語情報変換部１２０が実行する。

　副詞の付与に際しては、画像位置言語情報変換部１２０は程度副詞レベルテーブルｉ１０３を参照する。図５は、程度副詞レベルテーブルｉ１０３に格納される、レベルと副詞との対応例である。図５に示した例では、レベル「大」に対応する副詞として「とても」、「かなり」、「すごく」、「たいへん」等の副詞が割り当てられている。

　図７は、画像入力装置１０から画像処理装置１００へ入力される画像情報ｉ１０１から領域Ａを抜き出した状態を示す説明図である。上記ステップＳ１０８で、認識した人間の顔２００の重心２０１が画像情報ｉ１０１の領域Ａの中のどの領域に位置しているかが判別される。図７に示した例では、重心２０１は、領域Ａの中の、領域Ｉに位置していることが分かる。

　再分割時の程度レベルは、元の領域と再分割後の領域との組み合わせによりにより、大、中、小の３つのレベルに分割される。図８は、再分割時の程度レベルの例を示す説明図である。横軸が最初の分割時の分割領域を示し、縦軸が再分割後の分割領域を示す。つまり、最初の分割時の分割領域が領域Ａであり、再分割後の分割領域が領域Ｉであれば、程度レベルは「小」であることが分かる。そして図５に示した程度副詞レベルテーブルｉ１０３を参照すると、レベル「小」に対応する副詞として「少し」、「ちょっとだけ」、「やや」等の副詞が割り当てられていることが分かる。

　従って画像位置言語情報変換部１２０は、図７のような画像情報ｉ１０１が画像入力装置１０から入力された場合、図８に示した再分割時の程度レベルを参照し、例えば「少し左上」という単語に変換する。なお、この領域の分割処理は、上記ステップＳ１０２の認識処理で認識した物体の重心が分割後の領域の中心になるまで繰り返されても良い。

　上記ステップＳ１０８の処理が完了すると、続いて画像処理装置１００は、上記ステップＳ１０２の認識処理で認識した物体が１つだけかどうかを判断する（ステップＳ１０９）。このステップＳ１０９の判断は、例えば画像位置言語情報変換部１２０が実行し得る。

　上記ステップＳ１０９の判断の結果、上記ステップＳ１０２の認識処理で認識した物体が１つだけであった場合は（ステップＳ１０９、Ｙｅｓ）、続いて画像処理装置１００は、文生成テンプレートｉ１０４を参照して、上記ステップＳ１０８で変換した単語に文生成テンプレートｉ１０４を適用することで文を生成する（ステップＳ１１０）。このステップＳ１１０の処理は、例えば言語生成部１３０が実行する。

　図９は、画像処理装置１００が使用する文生成テンプレートｉ１０４の一例を示す説明図である。図９に示した文生成テンプレートｉ１０４の＜ｔａｒｇｅｔ－ｎ＞タグには、物体認識部１１１の認識処理によって得られた物体名が当てはめられる。＜ｐｏｓｉｔｉｏｎ－ｎ＞タグには、画像位置言語情報変換部１２０の変換処理より得られるその画像の位置の言語情報が当てはめられる。＜ｃｏｎｅｃｔｉｏｎ－ｎ＞タグには、画像位置言語情報変換部１２０より得られる物体の重なり情報が当てはめられる。＜ｃｏｌｏｒ－ｎ＞タグには、ＲＧＢ色名変換部１５０より得られる物体の色情報が当てはめられる。＜ａｃｔｉｏｎ－ｎ＞タグには、画像入力装置１０から送られる画像情報ｉ１０１が動画像の際の、画像位置言語情報変換部１２０の変換処理より得られる物体の動きが当てはめられる。

　例えば、図６や図７の入力画像例のように、顔が画像の少し左上に位置している場合、言語生成部１３０は、文生成テンプレートｉ１０４を参照し、＜ｐｏｓｉｔｉｏｎ－１＞に「少し左上」を、＜ｔａｒｇｅｔ－１＞に「顔」を適用することで、例えば「画面の少し左上に顔があります。」という文章を作成する。

　言語生成部１３０は、文生成テンプレートｉ１０４を参照して、テンプレートの各タグに上記ステップＳ１０８で変換した単語を当てはめて、テンプレートに合致する文章の中から少なくとも１つの文章を作成する。テンプレートからの文章の選択は、ユーザによりあらかじめなされていてもよく、物体認識の対象物の数や認識領域の違いによりなされるようにしてもよい。

　上記ステップＳ１１０で、文生成テンプレートｉ１０４の適用によって文を生成すると、続いて画像処理装置１００は、テンプレートに「認識物体名」、「絶対／相対位置」、「色」、「大きさ」、「奥行き」等の、物体に関する内容を補完して、文章を作成する（ステップＳ１１１）。このステップＳ１１１の処理は、例えば言語生成部１３０が実行する。

　例えば、画像情報ｉ１０１に含まれる顔が太郎君の顔であることを物体認識部１１１が認識した場合は、言語生成部１３０は、「顔」に「太郎の」または「太郎君の」という語句を補完して、「画面の少し左上に太郎の顔があります。」または「画面の少し左上に太郎君の顔があります。」という文章を作成する。なお、ステップＳ１０２の認識処理で認識した物体が１つだけの場合は、物体同士の位置関係を補完する必要はないが、後述のようにステップＳ１０２の認識処理で認識した物体が２つ以上の場合は、言語生成部１３０は、物体同士の位置関係を補完する。言語生成部１３０は、物体同士の位置関係を補完することで、画像情報ｉ１０１における物体同士の関係性がよりわかりやすい文章に変換することが出来る。

　上記ステップＳ１１１で、テンプレートへ物体に関する内容を補完して文章を作成すると、続いて画像処理装置１００は、画像情報ｉ１０１に対する背景処理を実行する（ステップＳ１１２）。このステップＳ１１１の処理は、例えば背景処理部１６０が実行する。背景処理部１６０は、画像処理部１１０から送られてくる情報を用いて、物体認識部１１１が認識した認識物体を画像情報ｉ１０１から取り除く画像処理を実行する。そして背景処理部１６０は、認識物体を取り除いた画像情報ｉ１０１を画像検索装置２０に送る。画像検索装置２０は、画像について検索処理を実行する公知の装置を使用することが可能である。背景処理部１６０は、画像検索装置２０での検索結果を取得し、画像情報ｉ１０１の背景に関する情報を得る。背景処理部１６０は、画像情報ｉ１０１の背景に関する情報を言語生成部１３０に送る。

　上記ステップＳ１１１で背景処理を実行すると、続いて画像処理装置１００は、背景処理によって得られる背景に関する内容を補完して、文章を作成する（ステップＳ１１３）。このステップＳ１１１の処理は、例えば言語生成部１３０が実行する。言語生成部１３０は、背景処理部１６０から画像情報ｉ１０１の背景に関する情報を得ることで、画像情報ｉ１０１の状態を表す文章に、画像情報ｉ１０１の背景の情報を加える事ができる。例えば、背景処理の結果として、背景に富士山が写っていることが分かった場合、言語生成部１３０は、例えば「富士山を背景に、画面の少し左上に太郎の顔があります。」という文章を生成することが出来る。背景処理部１６０での背景処理の例については後述する。

　一方、上記ステップＳ１０９の判断の結果、上記ステップＳ１０２の認識処理で認識した物体が２つ以上であった場合は（ステップＳ１０９、Ｎｏ）、続いて画像処理装置１００は、認識した物体の中から基準となる物体（以下、この基準となる物体のことを「基準物体」とも称する）を決定する。例えば画像処理装置１００は、認識した物体の中で最も面積が大きい物体を基準物体に決定する（ステップＳ１１４）。このステップＳ１１４の処理は、例えば画像位置言語情報変換部１２０が実行し得る。なお、画像処理装置１００は、認識した物体の中で最も面積が大きい物体ではなく、最も画像情報ｉ１０１の中心に近い物体を基準物体に決定してもよい。また、画像処理装置１００は、面積や位置の基準の他に、認識した物体の中で最も輝度または彩度が高い物体を基準物体に決定してもよい。

　上記ステップＳ１１４で基準物体を決定すると、続いて画像処理装置１００は、認識物体が全て同じ領域にあるかどうかを判断する（ステップＳ１１５）。このステップＳ１１５の処理は、例えば画像位置言語情報変換部１２０が実行し得る。ステップＳ１１５の判断の結果、認識物体が全て同じ領域にある場合は（ステップＳ１１５、Ｙｅｓ）、続いて画像処理装置１００は、文章の生成に際して絶対位置情報を優先する（ステップＳ１１６）。一方ステップＳ１１５の判断の結果、認識物体が全て同じ領域では無い場合は（ステップＳ１１５、Ｎｏ）、続いて画像処理装置１００は、文章の生成に際して相対位置情報を優先する（ステップＳ１１７）。

　文章の生成に際して絶対位置情報を優先する場合は、画像処理装置１００は、例えば「太郎の顔と花子の顔が左上にあります」という文章を生成することが出来る。また文章の生成に際して相対位置情報を優先する場合は、画像処理装置１００は、認識した「太郎の顔」を基準物体にする場合、例えば「太郎の顔が画像の左上にあり、花子の顔が太郎の顔の右下にあります」という文章を生成することが出来る。すなわち、状態を表現したい物体の位置を、基準物体との相対位置として表現する文章を生成することができる。

　上記ステップＳ１１６またはステップＳ１１７で、絶対位置情報または相対位置情報を優先することを決定すると、続いて画像処理装置１００は、複数の認識物体間の相対位置を算出する（ステップＳ１１８）。ステップＳ１１８の、複数の認識物体間の相対位置の算出処理は、例えば画像位置言語情報変換部１２０が実行する。ステップＳ１１８で複数の認識物体間の相対位置を算出すると、続いて画像処理装置１００は、複数の認識物体間の相対位置の言語変換を行なう（ステップＳ１１９）。このステップＳ１１９の処理は、例えば画像位置言語情報変換部１２０が実行する。

　図１０は、画像入力装置１０から画像処理装置１００へ入力される画像情報ｉ１０１の例を示す説明図である。図１０では、自動車３００及び人間４００が画像情報ｉ１０１に存在している場合の例が示されている。また符号３０１は自動車３００の重心を、符号４０１は人間４００の重心を、それぞれ示している。

　画像処理装置１００は、上記ステップＳ１１８で、自動車３００及び人間４００との間の相対位置を算出する。画像情報ｉ１０１のＸ座標及びＹ座標の最大値をそれぞれ１００とする。画像処理装置１００の物体認識処理の結果によって、自動車３００の座標が（Ｘ，Ｙ）＝（１５，５０）、人間４００の座標が（Ｘ，Ｙ）＝（７０，４０）であることが分かったとする。すると画像処理装置１００は、上記ステップＳ１１８で、「自動車」の「右下」に「人間」が、「人間」の「左上」に「自動車」が位置するという、２つの認識物体と認識物体間の位置関係という、３つの要素からなる相対位置情報を生成することが出来る。

　上記ステップＳ１１９で複数の認識物体間の相対位置の言語変換を行なうと、続いて画像処理装置１００は、Ｘ軸及びＹ軸におけるそれぞれの相対距離の、全画面に対する程度を示す程度副詞を付与する（ステップＳ１２０）。このステップＳ１２０の処理は、例えば画像位置言語情報変換部１２０が実行する。程度の変換方法としては、例えば、Ｘ軸、Ｙ軸それぞれの取りうる最大値を１００とした場合に対して２つの物体の距離が７５を超える場合は「レベル大」、２５を下回る場合は「レベル小」、それ以外は「レベル中」と判断してもよい。もちろん、この閾値は任意に変更可能であることは言うまでもない。距離の程度が判別されると、画像処理装置１００は、図５に示した程度副詞レベルテーブルｉ１０３を参照して程度副詞を相対位置情報に付加する。

　図１０のように自動車３００及び人間４００が画像情報ｉ１０１に存在している場合は、画像処理装置１００は、程度副詞レベルテーブルｉ１０３を適用することにより、「自動車：右少し下：人間」、または「人間：左少し上：自動車」という相対位置情報を取得することが出来る。なお、Ｘ軸とＹ軸のそれぞれに対して相対距離の程度が同じ場合、例えばＸ軸とＹ軸のいずれについても「レベル小」の場合は、画像処理装置１００は、「少し右少し下」という表現は取らず、「少し右下」というように程度表現を一つにまとめてもよい。図１１は、画像入力装置１０から画像処理装置１００へ入力される画像情報ｉ１０１の別の例を示す説明図である。図１１では、自動車３００及び人間４００が画像情報ｉ１０１に存在している場合の例が示されている。このように相対距離の程度が同じ場合、画像処理装置１００は、「自動車：少し右下：人間」、または「人間：少し左上：自動車」という相対位置情報を取得することが出来る。

　上記ステップＳ１２０で程度副詞を付与すると、続いて画像処理装置１００は、認識物体の重なりを判別する（ステップＳ１２１）。ステップＳ１２１の処理は、例えば画像位置言語情報変換部１２０が実行し得る。そしてステップＳ１２１で認識物体の重なりを判別すると、続いて画像処理装置１００は、重なり関係の言語変換処理を実行する（ステップＳ１２２）。ステップＳ１２２の処理は、例えば画像位置言語情報変換部１２０が実行し得る。

　上述したように、輪郭情報処理部１４０は、画像処理部１１０から送られてくる情報を用いて、物体認識部１１１が認識した物体の輪郭の座標情報を取得する。そして輪郭情報処理部１４０は、物体の輪郭の座標情報を画像位置言語情報変換部１２０に送る。画像位置言語情報変換部１２０は、物体の輪郭の座標情報を取得することで、画像情報ｉ１０１に物体が複数存在する場合に、その物体が重なっているかどうかを判断することが出来るとともに、その重なりの状態に応じた言語情報を生成することが出来る。

　本実施形態では、「含んでいる／含まれる」「重なっている」「接している」「離れている」という４つのパターンによって認識物体の重なりの状態を表現する。図１２は、それぞれの認識物体の重なりの状態の表現について示す説明図である。図１２には、認識物体である三角形の物体と丸い物体とが、どのような重なりの状態にあるかが示されている。画像処理装置１００は、上記ステップＳ１２１において、認識物体の重なりを判別し、上記ステップＳ１２２において、上記４つのパターンのいずれかを用いて、認識物体の重なり関係を言語に変換する。例えば、認識物体の状態が図１２の左上の状態であれば、画像処理装置１００は、「三角形：接している：丸」というような言語情報に変換することができる。

　画像処理装置１００は、２つの認識物体が重なっている場合は、その重なりの面積の比率の程度によりその重なりの程度を表現しても良い。画像処理装置１００は、例えば２つの認識物体である物体１と物体２とが重なっている場合、物体１と物体２とが重なっている部分の面積が物体１の面積の２５％以下の場合は重なりの程度を「小」、７５％以上の場合は「大」、それ以外の場合を「中」としてもよい。この程度の決定は輪郭情報処理部１４０が実行してもよい。また２つの認識物体が離れている場合は、画像処理装置１００は、それぞれの認識物体の重心の距離を求め、認識物体の重心間の距離に応じて程度情報を決定してもよい。画像処理装置１００は、認識物体の重心間の距離が画面全体の対角線の長さに対して、例えば２５％以内である場合は離れている距離の程度を「小」、７５％以上の場合は「大」、それ以外の場合を「中」としてもよい。

　そして上記ステップＳ１２２で、重なり関係の言語変換処理を実行すると、続いて画像処理装置１００は、認識物体の重なりの程度の情報と、程度副詞レベルテーブルｉ１０３とを参照して、程度副詞を付与した言語情報に変換する（ステップＳ１２３）。このステップＳ１２２の処理は、例えば画像位置言語情報変換部１２０が実行し得る。画像処理装置１００は、ステップＳ１２３で、「少し重なっている」、「かなり重なっている」、「少し離れている」、「かなり離れている」などの程度副詞を付与した言語情報に変換することが出来る。

　画像処理装置１００は、３次元画像の画像処理を実行してもよく、対象の画像情報ｉ１０１が３次元画像である場合、相対位置として奥行き方向のＺ軸を処理対象に加えても良い。画像処理装置１００は、対象の画像情報ｉ１０１が３次元画像である場合、認識物体の奥行きを判別する（ステップＳ１２４）。ステップＳ１２４の処理は、例えば画像位置言語情報変換部１２０が実行し得る。そしてステップＳ１２４で認識物体の奥行きを判別すると、続いて画像処理装置１００は、奥行き関係の言語変換処理を実行する（ステップＳ１２５）。ステップＳ１２５の処理は、例えば画像位置言語情報変換部１２０が実行し得る。そして画像処理装置１００は、奥行きの関係に応じて程度副詞を付与した言語情報に変換する（ステップＳ１２６）。ステップＳ１２６の処理は、例えば画像位置言語情報変換部１２０が実行し得る。画像処理装置１００は、ステップＳ１２６で、「少し奥にいる」、「かなり奥にいる」、「少し手前にいる」、「かなり手前にいる」などの程度副詞を付与した言語情報に変換することが出来る。

　認識物体が２つ以上の場合の一連の処理が終了すると、続いて画像処理装置１００は、上記ステップＳ１１０の文生成テンプレートの参照処理に移行し、文章の作成を完了させる。例えば文章の生成に際して相対位置情報を優先する場合は、画像処理装置１００は、図９に示した文生成テンプレートｉ１０４における相対位置用のテンプレートを用いて文章を生成する。また画像処理装置１００は、文生成テンプレートｉ１０４を用いて認識物体が２つ以上の場合の文章を生成する際に、上記ステップＳ１１４で決定した基準物体からの相対的な位置を文生成テンプレートｉ１０４に当てはめても良い。また画像処理装置１００は、基準物体を基準として、認識された他の物体の相対位置を表す文章だけでなく、例えば基準物体を基準として、認識された他の物体の大きさ、形状、色などの相対的な状態の表現を含んだ文章を、文生成テンプレートｉ１０４を用いて言語生成部１３０で生成してもよい。例えば、画像情報ｉ１０１から２つの物体Ａ、Ｂと、それらの物体の大きさ、形状、色などの状態が認識され、物体Ａが基準物体に決定された場合を考える。言語生成部１３０は、物体Ａを基準とした他の物体の相対的な状態を示す文章として、「Ａよりも大きいのがＢです。」、「Ａよりも高いのがＢです。」、「Ａよりも赤いのがＢです。」のような文章を、文生成テンプレートｉ１０４を用いて生成しても良い。

　ここで、上記ステップＳ１１１での、画像処理装置１００による色情報の補完処理について説明する。認識物体のＲＧＢ情報はＲＧＢ色名変換部１５０に送られ、ＲＧＢ色名変換部１５０によって認識物体の代表的な色を得ることが可能である。例えば、代表的な色は、認識物体の中で一番多くの面積を占める色とする。

　ＲＧＢ色名変換部１５０で得られた色情報は言語生成部１３０に渡される。言語生成部１３０は、上述したように文生成テンプレートｉ１０４を参照して文の生成を行うが、文の生成の際に、文生成テンプレートｉ１０４上の＜ｃｏｌｏｒ－ｎ＞タグを、ＲＧＢ色名変換部１５０で得られた色情報に置き換える形で文生成を行う。

　図１３は、画像入力装置１０から画像処理装置１００へ入力される画像情報ｉ１０１の別の例を示す説明図である。図１３には、机の上に赤いリンゴが２個ある画像情報ｉ１０１が示されている。従って、図１３に示した画像情報ｉ１０１を画像処理装置１００で処理すると、画像処理装置１００は上述の一連の処理により、言語生成部１３０において「机の上に赤いリンゴと赤いリンゴがあります」ではなく、「机の上に赤いリンゴが２個あります」または「机の上に２つの赤いリンゴがあります」のような文を生成すること出来る。

　認識物体に複数の色が含まれている場合で、かつ、それぞれの色の占める面積が所定の閾値（例えば該認識物体の面積の４０％）を超える場合は、ＲＧＢ色名変換部１５０は、複数の色の組み合わせを認識物体の色情報に決定してもよい。例えば、ある認識物体が、赤色と青色とが半分ずつの物体である場合は、ＲＧＢ色名変換部１５０は、「赤と青」のように２つの色の組み合わせを認識物体の色情報に決定してもよい。

　上記の生成文では「２個」という個数が言語化されている。個数の言語化は言語生成部１３０において実行されても良い。言語生成部１３０は、入力される認識物体の中で、複数の条件が同じものをまとめて、その認識物体の数を数える。図１３に示した画像情報ｉ１０１の例では、画像処理装置１００は、「認識物体名」（リンゴ）、「机との相対位置」（机の上）、「色」（赤い）の３つの要素が同じであった場合に、認識物体の数をまとめて、文生成テンプレートｉ１０４上の＜ｃｏｕｎｔ－ｎ＞タグに相当する部分に言語情報として補完する形で文を生成している。

　このように言語生成部１３０は、入力される認識物体の中で、複数の条件が同じものをまとめて、言語情報を生成することが出来る。なお、言語生成部１３０は、同一名の物体の絶対位置情報が異なる場合は、位置情報を用いずに言語情報を生成してもよい。また言語生成部１３０は、同一名の物体の色情報が異なる場合は、集約を行わずにそれぞれ別の物体として言語情報を生成してもよい。また言語生成部１３０は、画像情報ｉ１０１に同じ物体が存在していても、同一名の物体の大きさが異なる場合は集約を行わずにそれぞれ別の物体として言語情報を生成してもよい。

　画像処理装置１００は、認識物体の輪郭から認識物体の面積を求め、画面全体における割合に応じて、認識物体の大きさを言語により表現してもよい。例えば、画面全体の面積に対して認識物体の面積が３０％以上ある場合は「大きい」と定義し、３％以下の場合は「小さい」と定義する。図１４は、画像入力装置１０から画像処理装置１００へ入力される画像情報ｉ１０１の別の例を示す説明図である。図１４に示した例では、画像処理装置１００は、「画面の左上に大きな三角の中に小さな丸があります」という文を生成することが出来る。

　画像処理装置１００は、画像情報ｉ１０１から認識物体を除外して、画像情報ｉ１０１の背景に何が写っているかを画像検索装置２０での検索の結果から取得してもよい。画像情報ｉ１０１から認識物体を除外する処理や、画像検索装置２０での検索の結果を取得する処理は背景処理部１６０が実行し得る。

　図１５は、画像処理装置１００による、画像情報ｉ１０１から認識物体を除外する処理の一例を示す説明図である。図１５の左側には、認識物体として自動車３００及び人間４００が存在し、また背景として山や森が写っている画像情報ｉ１０１が示されている。背景処理部１６０は、画像情報ｉ１０１から自動車３００及び人間４００を除外し、その除外後の画像情報ｉ１０１を画像検索装置２０に渡す。図１５の右側には、画像情報ｉ１０１から自動車３００及び人間４００が除外され、山と森だけが写っている画像情報ｉ１０１が示されている。

　画像検索装置２０は、認識物体（自動車３００及び人間４００）が除外された画像情報ｉ１０１を用いて画像検索処理を実行し、例えば「大自然の山」、「山」、「山と森」等の結果を得る。そして画像検索装置２０は、認識物体が除外された画像情報ｉ１０１の画像検索処理の結果を画像処理装置１００に返す。認識物体が除外された画像情報ｉ１０１を用いた画像検索処理の結果を画像検索装置２０から取得した背景処理部１６０は、その画像情報ｉ１０１の画像検索処理の結果を言語生成部１３０に渡す。言語生成部１３０は、背景処理部１６０から取得した、認識物体が除外された画像情報ｉ１０１を用いた画像検索処理の結果を、文生成テンプレートｉ１０４上の＜ｂａｃｋ－ｎ＞タグに相当する部分に言語情報として補完する形で文を生成することが出来る。例えば言語生成部１３０は、図１５に示した画像情報ｉ１０１から「大自然の山を背景にやや左下に自動車があり、そのかなり右に人間がいます」というような文章を生成することが出来る。

　背景処理部１６０は、元の画像情報ｉ１０１から認識物体を除外した画像の内、最大の矩形領域を背景とみなしてもよい。そして背景処理部１６０は、画像検索装置２０での画像検索処理により得られた画像の名称を背景の名称としてもよい。なお、元の画像情報ｉ１０１から認識物体を削除した画像から背景が得られない場合もあり得る。その場合を考慮し、背景処理部１６０は、元の画像情報ｉ１０１から認識物体を削除した画像の内、画像の中心となる色を背景名としてもよい。画像の中心となる色は、例えば最も広い範囲を占める色であってもよい。

　上述した一連の処理によって、本実施形態に係る画像処理装置１００は、「自動車の右少し下に人間がいます。」や「人間の左少し上に自動車があります。」という文を生成することが出来る。本実施形態に係る画像処理装置１００は、文生成テンプレートｉ１０４からの文の選択に際して、ユーザによりあらかじめ選択されていてもよく、優先度が予め設定されていてもよく、物体認識の対象物の数の違いや、話題の中心になっている対象物により選択されていてもよい。話題の中心を取得する方法は特定の方法に限られるものではなく、例えばユーザが発話した音を文章に変換する機能を有する装置から該変換後の文章を取得し、その文章を解析することで話題の中心を取得する方法であってもよく、また例えばインターネット上でトレンドとなっている話題を取得する方法であってもよい。

　以上、図２Ａ及び図２Ｂを用いて本開示の一実施形態に係る画像処理装置１００の動作例について説明した。図２Ａ及び図２Ｂに示した流れ図の説明に際しては、画像情報ｉ１０１は静止画であるとしたが、画像情報ｉ１０１が動画像である場合は、画像処理装置１００は、フレーム単位、また所定のフレーム毎に上述の一連の処理を実行することで、同様に画像情報ｉ１０１から文章を作成することが出来る。また画像情報ｉ１０１が動画像である場合は、画像処理装置１００は、上述の一連の処理を実行することで、動画像のどの時刻でどのような画像が存在するかをリスト化することが出来る。

　画像情報ｉ１０１が動画像である場合、認識物体が移動していることがある。画像処理装置１００は、物体の移動方向を、認識物体の重心の移動により判断することが可能である。画像位置言語情報変換部１２０は、認識物体が、例えば図３の領域Ｆから領域Ｇに移動していることが分かると、「右から左下へ移動」という言語情報を生成することが可能である。言語生成部１３０は、文生成テンプレートｉ１０４の＜ａｃｔｉｏｎ－ｎ＞タグに、この画像位置言語情報変換部１２０が生成した言語情報を適用し、「自動車が右から左下に移動しています。」という文章を生成することができる。

　［１．３．変形例］
　（画像検索処理）
　本開示の一実施形態に係る画像処理装置１００は、上述したような構成を有し、上述したような動作を実行することで、画像情報ｉ１０１を文章に変換することが出来る。本開示の一実施形態に係る画像処理装置１００は、画像情報ｉ１０１から得られる文章のインデックスを作成しても良い。そして画像処理装置１００は、テキスト情報を用いてインデックスを検索することで、テキスト情報による画像情報の検索が可能になる。

　図１６は、本開示の一実施形態に係る画像処理装置１００の変形例を示す説明図である。図１６に示した画像処理装置１００は、図１に示した画像処理装置１００に、さらにインデックス生成部１７０と、画像検索部１８０と、が追加されたものが示されている。インデックス生成部１７０は言語生成部１３０が生成した言語情報ｉ１０５を用いてインデックス情報ｉ１０６を生成する。インデックス生成部１７０が生成するインデックス情報ｉ１０６は、その基になる画像情報ｉ１０１と対応付けて保存される。インデックス生成部１７０は、インデックス情報ｉ１０６を生成する際に、物体に関しては概念情報（オントロジー）を用いてもよい。またインデックス生成部１７０は、インデックス情報ｉ１０６を生成する際に、ＲＧＢ色名変換部１５０での処理とは逆に、テキストからＲＧＢなどのカラーコードに変換してもよい。

　画像検索部１８０は、インデックス生成部１７０が生成するインデックス情報ｉ１０６の検索によって、検索条件に合致する、または検索条件に類似する画像情報ｉ１０１を検索し、その画像情報ｉ１０１を提示する。

　インデックス生成部１７０が生成したインデックス情報ｉ１０６の検索を画像検索部１８０が実行することで、本開示の一実施形態に係る画像処理装置１００は、検索条件に合致する、または検索条件に類似する画像情報ｉ１０１を探し出すことが可能になる。検索時の優先順位は、例えば物体名、色、大きさの順、位置関係の順とされてもよい。

　画像検索部１８０は、インデックス生成部１７０が生成したインデックス情報ｉ１０６の検索時に、例えばユーザに入力された検索条件中の単語の出現順により、画像検索時の優先度を変更してもよい。

　また画像検索部１８０は、検索結果が検索条件と一部異なる場合は、その一致点や相違点を提示するようにしてもよい。また画像検索部１８０は、検索条件と一致した物体の輪郭を強調することにより、どの物体に検索条件が適合したかを提示してもよい。

　画像検索部１８０は、検索条件との相違点の提示に際し、相違していることを表すアトリビュート（色、ブランキング、網掛けなど）により、相違点を提示してもよい。図１７は、検索条件との相違点の提示例を示す説明図である。例えば検索文が「大自然を背景に青い車と人が写っている写真」というものであった場合、車の色以外の条件には合致するが、車の色が異なる画像が発見された場合、車の領域内を点滅させることで相違点を提示してもよく、車の輪郭を強調することで相違点を提示してもよく、車を枠で囲むことで相違点を提示してもよい。もちろん相違点の提示例はかかる例に限定されるものではない。

　なお、検索条件との相違点が、背景や動き等の属性をつけにくいものである場合は、画像検索部１８０は、「背景が赤ではありません」等の、テキストにより検索条件を否定する形で表現してもよく、「背景が青です」等の、テキストにより検索条件との相違点を表現してもよい。

　画像検索部１８０は、検索の履歴と検索結果に基づいて、次の検索結果の重み付けを変更してもよい。例えば、画像検索部１８０による検索結果に対して「もっと赤いもの」、「人が右にいるもの」、「もっと動きの遅いもの」、「背景がもう少し明るいもの」などの検索条件が指定されると、画像検索部１８０は、検索結果に対する絞り込み検索や、再検索を行なっても良い。

　なお、画像検索部１８０は、検索結果を提示する際に、検索条件で指定された項目は必ず全て揃っていなくても良い。

　また、画像検索部１８０による検索は音声認識を加えることにより音声により行われるようにしても良い。音声認識の結果が画像検索部１８０に逐次送られることで、自動的に会話の中に出てきた画像が具体化される。そして画像検索部１８０は、検索結果の履歴を逐次蓄積し、検索結果を表示することで、検索結果の視覚的な比較が可能になり、ユーザは、最終的に希望の画像を選択することが可能となる。

　また画像検索部１８０は、検索結果をテキストで提示してもよく、テキストを音声合成し、音声によって提示してもよい。また画像検索部１８０は、検索結果に類似する画像を、さらに画像検索により検索してもよい。

　図１８は、本開示の一実施形態に係る画像処理装置１００による画像検索処理のＧＵＩの例である。符号５０１は検索条件を入力するためのテキストボックス、符号５０２は検索条件に合致する画像である。このように検索条件に合致する画像５０２が画面に表示された状態で、更に別の検索条件がテキストボックス５０１に入力されて検索が行われると、図１８に示したように、前回の検索によって取得された画像が符号５０３で示すように画面の隅に表示されるようにしてもよい。

　（シーンテキスト変換処理）
　本開示の一実施形態に係る画像処理装置１００は、画像情報ｉ１０１から得られる文章によって、画像情報ｉ１０１がどのようなシーンであるかを示すシーン情報を表現出来る。また本開示の一実施形態に係る画像処理装置１００は、シーン情報のデータベースを構築することが出来る。

　図１９は、本開示の一実施形態に係る画像処理装置１００の変形例を示す説明図である。図１９に示した画像処理装置１００は、図１に示した画像処理装置１００に、さらにシーン認識部１９０が含まれている構成を有する。シーン認識部１９０は、言語情報ｉ１０５から、画像情報ｉ１０１がどのようなシーンであるかを認識し、シーン情報ｉ１０７をデータベースで構築する。

　シーン認識部１９０は、例えば、タグなどのメタテキストにより、「認識物体」、「動作」、「シーン表現」の３つのタグでシーンを表現し、シーン情報ｉ１０７をデータベースで構築する。シーン表現は、例えば（認識物体→テキスト）＋（動き→テキスト）＝シーン表現（テキストまたはタグ）という形式で表される。認識物体には、物体の名前、色、形、大きさなどが指定される。シーン表現は、ユーザが自由に設定できる。また人物名は役名にまとめることも可能である。またシーン表現は、アトリビュートとして人物名、色、動きなどを指定できる。

　シーン認識部１９０は、シーン情報ｉ１０７の構築の際に、動画像である画像情報ｉ１０１のコンテンツ名、先頭からの時間、物体認識結果を利用する。またシーン認識部１９０は、シーン情報ｉ１０７の構築の際に、シーン変換テーブルｉ１０８を参照する。シーン変換テーブルｉ１０８は、言語情報ｉ１０５に含まれている認識物体がどのような状態であればどのようなシーンであるかをまとめたテーブルである。以下にシーン変換テーブルｉ１０８に格納されるシーンデータの一例を示す。もちろんシーン変換テーブルｉ１０８に格納されるシーンデータはかかる例に限定されるものではない。

　（シーン変換テーブルｉ１０８に格納されるシーンデータの一例）
　人物＋人物＝共演
　人物＋人物＋背景（海）＝デートシーン
　人物＋人物＋背景（夜景）＝デートシーン
　人物＋背景（海）＝海水浴シーン
　人物＋背景（海）＝釣りシーン
　唇＋唇＋同位置＝キスシーン
　山＋煙＝噴火シーン
　人物＋車のハンドル＋人物の前＝運転シーン
　人物＋犬＝散歩シーン

　シーン認識部１９０は、言語情報ｉ１０５を用いて、シーン変換テーブルｉ１０８を参照してシーンタグやシーンテキストを生成する。例えばシーン認識部１９０は、「ＸさんとＹさんがいます。」という言語情報ｉ１０５から、以下の様なシーンタグやシーンテキストを生成する。なお、以下で示すシーンタグの＜ｔｉｍｅ＞タグは画像情報ｉ１０１における時刻、＜ｓｅａｎ＞タグはシーン変換テーブルｉ１０８に格納されるデータから選択されるシーンデータ、＜ｎａｍｅ＞タグは登場する人物の名前を表している。

　（シーンタグの例）
　＜ｔｉｍｅ＞１２：２３：２１＜／ｔｉｍｅ＞
　＜ｓｅａｎ＞共演＜／ｓｅａｎ＞
　＜ａｔｒｉｂｕｔｅ＞
　　＜ｎａｍｅ＞Ｘさん＜／ｎａｍｅ＞
　　＜ｎａｍｅ＞Ｙさん＜／ｎａｍｅ＞
　＜／ａｔｒｉｂｕｔｅ＞
　（シーンテキストの例）
　「ＸさんとＹさんの共演シーン」

　また例えばシーン認識部１９０は、「海岸を背景にして、ＸさんとＹさんがいます。」という言語情報ｉ１０５から、以下の様なシーンタグやシーンテキストを生成する。
　（シーンタグの例）
　＜ｔｉｍｅ＞１１：２４：３１＜／ｔｉｍｅ＞
　＜ｓｅａｎ＞デート＜／ｓｅａｎ＞
　＜ａｔｒｉｂｕｔｅ＞
　　＜ｎａｍｅ＞Ｘさん＜／ｎａｍｅ＞
　　＜ｎａｍｅ＞Ｙさん＜／ｎａｍｅ＞
　＜／ａｔｒｉｂｕｔｅ＞
　（シーンテキストの例）
　「ＸさんとＹさんのデートシーン」

　また例えばシーン認識部１９０は、「Ｘさんの前に自動車のハンドルがあります。」という言語情報ｉ１０５から、以下の様なシーンタグやシーンテキストを生成する。
　（シーンタグの例）
　＜ｔｉｍｅ＞１２：２３：２１＜／ｔｉｍｅ＞
　＜ｓｅａｎ＞運転＜／ｓｅａｎ＞
　＜ａｔｒｉｂｕｔｅ＞
　　＜ｎａｍｅ＞Ｘさん＜／ｎａｍｅ＞
　＜／ａｔｒｉｂｕｔｅ＞
　（シーンテキストの例）
　「Ｘさんの運転シーン」

　同様に、例えばシーン認識部１９０は、唇と唇が重なっている画像であればキスシーン、車と車が重なっている画像であれば自動車事故のシーン、山の上から煙が出ている画像であれば噴火シーンを意味するシーンタグやシーンテキストを生成することが出来る。また例えばシーン認識部１９０は、画像情報ｉ１０１がクイズ番組のワンシーンであり、赤い丸と青い四角が上下に動く画像であれば、特定のコーナーを意味するシーンタグやシーンテキストを生成することが出来る。

　シーン認識部１９０は、画像情報ｉ１０１にクローズドキャプションが含まれていれば、クローズドキャプションのデータを用いてもよい。クローズドキャプションのデータを用いることで、シーン認識部１９０は、シーン認識の精度を上げることが出来る。

　シーン認識部１９０は、言語情報ｉ１０５を用いてこのようにシーン情報ｉ１０７を画像情報ｉ１０１のすべての区間に渡って構築することが出来る。そしてシーン認識部１９０が構築したシーン情報ｉ１０７は、画像情報ｉ１０１に対する様々な処理に適用され得る。例えば、画像処理装置１００は、シーン認識部１９０が構築したシーン情報ｉ１０７によって、シーンタグの切り替わりをシーンチェンジと判断して、画像情報ｉ１０１のサムネイルの作成が可能となる。また例えば、画像処理装置１００は、同一のシーンが続き、シーンチェンジが行われない間をシーン区間とすることが可能となる。また例えば、画像処理装置１００は、登場人物が変わらない場合はシーンチェンジが発生してないと判断することが可能となる。また例えば、画像処理装置１００は、コマーシャル検出と組み合わせ、コマーシャルを挟んでも同一シーンと判断される場合はシーンの継承を表すタグを付与することが可能となる。もちろん画像処理装置１００は、一般的な画像処理によるシーンチェンジ処理と、シーン認識部１９０が構築したシーン情報ｉ１０７を用いたシーンチェンジ処理とを複合的に用いてもよい。

　このように、本開示の一実施形態に係る画像処理装置１００は、画像情報ｉ１０１を言語情報ｉ１０５に変換することで、言語情報ｉ１０５を用いた更なる画像処理を可能にする。なお、上述したインデックス生成部１７０、画像検索部１８０、シーン認識部１９０は、言語情報ｉ１０５を参照できるものであれば、画像処理装置１００とは別の装置に設けられることも可能である。

　＜２．ハードウェア構成例＞
　次に、図２０を参照して、本開示の一実施形態にかかる画像処理装置１００のハードウェア構成について説明する。図２０は、本開示の実施形態にかかる画像処理装置１００のハードウェア構成例を示すブロック図である。上記の各アルゴリズムは、例えば、図２０に示す情報処理装置のハードウェア構成を用いて実行することが可能である。つまり、当該各アルゴリズムの処理は、コンピュータプログラムを用いて図２０に示すハードウェアを制御することにより実現される。なお、このハードウェアの形態は任意であり、例えば、パーソナルコンピュータ、携帯電話、ＰＨＳ、ＰＤＡ等の携帯情報端末、ゲーム機、接触式又は非接触式のＩＣチップ、接触式又は非接触式のＩＣカード、又は種々の情報家電がこれに含まれる。但し、上記のＰＨＳは、Ｐｅｒｓｏｎａｌ　Ｈａｎｄｙ－ｐｈｏｎｅ　Ｓｙｓｔｅｍの略である。また、上記のＰＤＡは、Ｐｅｒｓｏｎａｌ　Ｄｉｇｉｔａｌ　Ａｓｓｉｓｔａｎｔの略である。

　図２０に示すように、このハードウェアは、主に、ＣＰＵ９０２と、ＲＯＭ９０４と、ＲＡＭ９０６と、ホストバス９０８と、ブリッジ９１０と、を有する。さらに、このハードウェアは、外部バス９１２と、インターフェース９１４と、入力部９１６と、出力部９１８と、記憶部９２０と、ドライブ９２２と、接続ポート９２４と、通信部９２６と、を有する。但し、上記のＣＰＵは、Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔの略である。また、上記のＲＯＭは、Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙの略である。そして、上記のＲＡＭは、Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙの略である。

　ＣＰＵ９０２は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ９０４、ＲＡＭ９０６、記憶部９２０、又はリムーバブル記録媒体９２８に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。ＲＯＭ９０４は、ＣＰＵ９０２に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ９０６には、例えば、ＣＰＵ９０２に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

　これらの構成要素は、例えば、高速なデータ伝送が可能なホストバス９０８を介して相互に接続される。一方、ホストバス９０８は、例えば、ブリッジ９１０を介して比較的データ伝送速度が低速な外部バス９１２に接続される。また、入力部９１６としては、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力部９１６としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。

　出力部９１８としては、例えば、ＣＲＴ、ＬＣＤ、ＰＤＰ、又はＥＬＤ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。但し、上記のＣＲＴは、Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅの略である。また、上記のＬＣＤは、Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙの略である。そして、上記のＰＤＰは、Ｐｌａｓｍａ　ＤｉｓｐｌａｙＰａｎｅｌの略である。さらに、上記のＥＬＤは、Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ　Ｄｉｓｐｌａｙの略である。

　記憶部９２０は、各種のデータを格納するための装置である。記憶部９２０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。但し、上記のＨＤＤは、Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅの略である。

　ドライブ９２２は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９２８に記録された情報を読み出し、又はリムーバブル記録媒体９２８に情報を書き込む装置である。リムーバブル記録媒体９２８は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙメディア、ＨＤ　ＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９２８は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。但し、上記のＩＣは、Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔの略である。

　接続ポート９２４は、例えば、ＵＳＢポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ、ＲＳ－２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９３０を接続するためのポートである。外部接続機器９３０は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。但し、上記のＵＳＢは、Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓの略である。また、上記のＳＣＳＩは、Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅの略である。

　通信部９２６は、ネットワーク９３２に接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ用の通信カード、光通信用のルータ、ＡＤＳＬ用のルータ、又は接触又は非接触通信用のデバイス等である。また、通信部９２６に接続されるネットワーク９３２は、有線又は無線により接続されたネットワークにより構成され、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、可視光通信、放送、又は衛星通信等である。但し、上記のＬＡＮは、Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋの略である。また、上記のＷＵＳＢは、Ｗｉｒｅｌｅｓｓ　ＵＳＢの略である。そして、上記のＡＤＳＬは、Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅの略である。

　以上、画像処理装置１００のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更されうる。

　＜３．まとめ＞
　以上説明したように本開示の一実施形態によれば、画像情報に含まれる物体を認識し、その物体の認識結果を用いて画像情報から言語情報を生成する画像処理装置１００が生成される。本開示の一実施形態に係る画像処理装置１００は、画像情報に含まれる物体を認識して、「画面の右下」や「画面の中央やや右上」などの言語的な表現に位置を表現したり、「赤い自動車のすぐ右隣」や「赤い自動車の手前」、「赤い自動車からかなり右側」、「テーブルの上」など対象物と目標物の位置関係を言語で表現したりすることが可能になる。

　本開示の一実施形態に係る画像処理装置１００は、視力の弱い人や目の不自由な人の行動支援にも有効である。例えば、このような人にカメラを装着させて前方を撮像させて画像情報を得て、道を歩いているときに「左から車が来ます」という注意を提示するとか、「テーブルの上にリモコンがあります」というガイダンス情報を提示することも可能である。

　本開示の一実施形態に係る画像処理装置１００は医療画像の解析にも用いることが出来る。例えば画像情報として内視鏡やレントゲン等で体内を撮像した画像を画像処理装置１００へ入力する場合、本開示の一実施形態に係る画像処理装置１００による画像処理によって、例えば「胃の入り口の右上方に癌が認められる」であるとか「左肺の下部に白い炎症部分がある」などの診断情報を言語情報として得ることが出来る。従って本開示の一実施形態に係る画像処理装置１００は、物体認識により胃や肺等の臓器が認識された後に、臓器中の患部の位置の特定が容易に行える。また本開示の一実施形態に係る画像処理装置１００は、画像情報から得られる言語情報を、画像認識の学習の際の付加情報とすることにより、病理画像認識の精度を向上させることが可能である。

　また本開示の一実施形態に係る画像処理装置１００は、カーナビゲーションやウェアラブルコンピュータなどのディスプレイを注視することが難しい環境下での画像からの情報提供に効果が大きい。また本開示の一実施形態に係る画像処理装置１００は、視力の弱い人や目の不自由な人が、画像情報のイメージをつかむのに有効である。また本開示の一実施形態に係る画像処理装置１００は、医療の分野での画像解析や病理診断の補助としても有効である。

　本明細書の各装置が実行する処理における各ステップは、必ずしもシーケンス図またはフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、各装置が実行する処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。

　また、各装置に内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアを、上述した各装置の構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供されることが可能である。また、機能ブロック図で示したそれぞれの機能ブロックをハードウェアで構成することで、一連の処理をハードウェアで実現することもできる。

　また本開示の一実施形態に係る画像処理装置１００は、画像処理装置１００の処理の結果として表示される画像を表示するディスプレイを備える装置とは別の装置（たとえばインターネット等のネットワークを介してディスプレイを備える装置と接続されるサーバ装置）として実施されてもよいし、サーバ装置から情報を受ける端末装置で実施されてもよい。また本開示の一実施形態に係る画像処理装置１００の構成は、単独の装置で実現されてもよく、複数の装置が連携するシステムで実現されても良い。複数の装置が連携するシステムには、例えば複数のサーバ装置の組み合わせ、サーバ装置と端末装置との組み合わせ等が含まれ得る。

　なお、上記実施形態で示したユーザインタフェースやアプリケーションを実現するソフトウェアは、インターネット等のネットワークを介して使用するウェブアプリケーションとして実現されてもよい。ウェブアプリケーションは、例えば、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）、ＳＧＭＬ（Ｓｔａｎｄａｒｄ　Ｇｅｎｅｒａｌｉｚｅｄ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）、ＸＭＬ（Ｅｘｔｅｎｓｉｂｌｅ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）などのマークアップ言語により実現されてもよい。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　例えば言語生成部１３０は、言語情報の生成に際して画像情報ｉ１０１に関連付けられている情報を用いても良い。言語生成部１３０は、画像情報ｉ１０１に関連付けられている情報として、例えば画像情報ｉ１０１に含まれるメタデータを用いても良い。画像情報ｉ１０１に含まれるメタデータには、例えば、撮影日時や撮影位置の情報などが含まれ得る。言語生成部１３０は、画像情報ｉ１０１に含まれるメタデータを用いることで、より情報量の多い言語情報を生成することが出来る。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　画像に含まれる所定の物体に関連する情報である物体情報を取得する物体情報取得部と、
　前記物体情報取得部が取得した前記物体情報を用いて前記画像に含まれている前記物体の状態を表す文章を生成する文章生成部と、
を備える、情報処理装置。
（２）
　前記物体情報は、前記画像を解析することにより得られる情報である、前記（１）に記載の情報処理装置。
（３）
　前記画像に基づいて前記物体情報を生成する物体情報生成部を備え、
　前記物体情報生成部は、前記画像を所定数に分割し、該分割後の各領域に関する表現を用いて前記物体情報を生成する、前記（２）に記載の情報処理装置。
（４）
　前記物体情報生成部は、分割後の前記画像をさらに所定数に分割し、再分割後の各領域に関する表現を用いて前記物体情報を生成する、前記（３）に記載の情報処理装置。
（５）
　前記物体情報生成部は、前記物体の重心が分割後の領域の中心になるまで分割を繰り返す、前記（４）に記載の情報処理装置。
（６）
　前記文章は、前記物体情報に基づく程度を表す副詞を含む、前記（１）～（５）のいずれかに記載の情報処理装置。
（７）
　前記文章は、前記物体情報に基づく前記画像に含まれる複数の物体間の相対的な位置関係を表す表現を含む、前記（２）に記載の情報処理装置。
（８）
　前記文章生成部は、前記複数の物体の内、前記画像中で占める面積が最も大きい物体を基準として、前記複数の物体間の相対的な位置関係を表す表現を生成する、前記（７）に記載の情報処理装置。
（９）
　前記文章生成部は、前記複数の物体の内、最も前記画像の中心に近い物体を基準として、前記複数の物体間の相対的な位置関係を表す表現を生成する、前記（７）に記載の情報処理装置。
（１０）
　前記文章生成部は、前記複数の物体の内、最も輝度が高い物体を基準として、前記複数の物体間の相対的な位置関係を表す表現を生成する、前記（７）に記載の情報処理装置。
（１１）
　前記文章生成部は、前記複数の物体の内、最も彩度が高い物体を基準として、前記複数の物体間の相対的な位置関係を表す表現を生成する、前記（７）に記載の情報処理装置。
（１２）
　前記文章は、前記物体情報に基づく前記複数の物体の重なりの関係を表す表現を含む、前記（７）～（１１）のいずれかに記載の情報処理装置。
（１３）
　前記文章は、程度を表す副詞が付与された前記複数の物体の重なりの関係を表す表現を含む、前記（１２）に記載の情報処理装置。
（１４）
　前記文章は、前記物体の名称を含む、前記（７）～（１３）のいずれかに記載の情報処理装置。
（１５）
　前記文章は、前記物体の色を表す表現を含む、前記（７）～（１４）のいずれかに記載の情報処理装置。
（１６）
　前記文章生成部は、前記画像に含まれているメタデータを用いて文章を生成する、前記（１）～（１５）のいずれかに記載の情報処理装置。
（１７）
　前記文章生成部が生成した前記文章のインデックスを生成するインデックス生成部をさらに備える、前記（１）～（１６）のいずれかに記載の情報処理装置。
（１８）
　前記文章生成部が生成した前記文章を用いて前記画像のシーンを認識するシーン認識部をさらに備える、前記（１）～（１７）のいずれかに記載の情報処理装置。
（１９）
　画像に含まれる所定の物体に関連する情報である物体情報を取得することと、
　取得した前記物体情報を用いて前記画像に含まれている前記物体の状態を表す文章を生成することと、
を含む、情報処理方法。
（２０）
　コンピュータに、
　画像に含まれる所定の物体に関連する情報である物体情報を取得することと、
　取得した前記物体情報を用いて前記画像に含まれている前記物体の状態を表す文章を生成することと、
を実行させる、コンピュータプログラム。

　１００　　画像処理装置
　１１０　　画像処理部
　１１１　　物体認識部
　１１２　　画像認識領域設定部
　１１３　　物体位置情報抽出部
　１２０　　画像位置言語情報変換部
　１３０　　言語生成部
　１４０　　輪郭情報処理部
　１５０　　ＲＧＢ色名変換部
　１６０　　背景処理部
　１７０　　インデックス生成部
　１８０　　画像検索部
　１９０　　シーン認識部

Claims

　画像に含まれる所定の物体に関連する情報である物体情報を取得する物体情報取得部と、
　前記物体情報取得部が取得した前記物体情報を用いて前記画像に含まれている前記物体の状態を表す文章を生成する文章生成部と、
を備える、情報処理装置。
　前記物体情報は、前記画像を解析することにより得られる情報である、請求項１に記載の情報処理装置。
　前記文章は、前記物体情報に基づく、前記画像に含まれる複数の物体間の相対的な関係を表す表現を含む、請求項２に記載の情報処理装置。
　前記文章は、前記物体情報に基づく、前記画像に含まれる複数の物体間の相対的な位置関係を表す表現を含む、請求項３に記載の情報処理装置。
　前記文章生成部は、前記画像から得られる情報に基づき選択される、前記複数の物体のうち一つの物体を基準として前記複数の物体間の相対的な位置関係を表す表現を生成する、請求項４に記載の情報処理装置。
　前記文章生成部は、前記複数の物体の内、前記画像中で占める面積が最も大きい物体を基準として、前記複数の物体間の相対的な位置関係を表す表現を生成する、請求項５に記載の情報処理装置。
　前記文章生成部は、前記複数の物体の内、最も前記画像の中心に近い物体を基準として、前記複数の物体間の相対的な位置関係を表す表現を生成する、請求項５に記載の情報処理装置。
　前記文章生成部は、前記複数の物体の内、最も輝度が高い物体を基準として、前記複数の物体間の相対的な位置関係を表す表現を生成する、請求項５に記載の情報処理装置。
　前記文章は、前記物体情報に基づく程度を表す副詞を含む、請求項２に記載の情報処理装置。
　前記文章は、前記物体情報に基づく前記複数の物体の重なりの関係を表す表現を含む、請求項３に記載の情報処理装置。
　前記文章は、前記物体の名称を含む、請求項３に記載の情報処理装置。
　前記文章は、前記物体の色を表す表現を含む、請求項３に記載の情報処理装置。
　前記文章生成部は、前記画像に含まれているメタデータを用いて文章を生成する、請求項１に記載の情報処理装置。
　前記画像に基づいて前記物体情報を生成する物体情報生成部を備え、
　前記物体情報生成部は、前記画像を所定数に分割し、該分割後の各領域に関する表現を用いて前記物体情報を生成する、請求項２に記載の情報処理装置。
　前記物体情報生成部は、分割後の前記画像をさらに所定数に分割し、再分割後の各領域に関する表現を用いて前記物体情報を生成する、請求項１４に記載の情報処理装置。
　前記物体情報生成部は、前記物体の重心が分割後の領域の中心になるまで分割を繰り返す、請求項１５に記載の情報処理装置。
　前記文章生成部が生成した前記文章のインデックスを生成するインデックス生成部をさらに備える、請求項１に記載の情報処理装置。
　前記文章生成部が生成した前記文章を用いて前記画像のシーンを認識するシーン認識部をさらに備える、請求項１に記載の情報処理装置。
　画像に含まれる所定の物体に関連する情報である物体情報を取得することと、
　取得した前記物体情報を用いて前記画像に含まれている前記物体の状態を表す文章を生成することと、
を含む、情報処理方法。
　コンピュータに、
　画像に含まれる所定の物体に関連する情報である物体情報を取得することと、
　取得した前記物体情報を用いて前記画像に含まれている前記物体の状態を表す文章を生成することと、
を実行させる、コンピュータプログラム。