[go: up one dir, main page]

JP2015184798A - 情報処理装置、情報処理方法及びコンピュータプログラム - Google Patents

情報処理装置、情報処理方法及びコンピュータプログラム Download PDF

Info

Publication number
JP2015184798A
JP2015184798A JP2014058847A JP2014058847A JP2015184798A JP 2015184798 A JP2015184798 A JP 2015184798A JP 2014058847 A JP2014058847 A JP 2014058847A JP 2014058847 A JP2014058847 A JP 2014058847A JP 2015184798 A JP2015184798 A JP 2015184798A
Authority
JP
Japan
Prior art keywords
information
image
processing apparatus
sentence
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014058847A
Other languages
English (en)
Inventor
賢一郎 小林
Kenichiro Kobayashi
賢一郎 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2014058847A priority Critical patent/JP2015184798A/ja
Priority to PCT/JP2015/056992 priority patent/WO2015141523A1/ja
Publication of JP2015184798A publication Critical patent/JP2015184798A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】画像情報の認識結果を直感的に捉えさせることが可能な情報処理装置を提供する。
【解決手段】画像に含まれる所定の物体に関連する情報である物体情報を取得する物体情報取得部と、前記物体情報取得部が取得した前記物体情報を用いて前記画像に含まれている前記物体の状態を表す文章を生成する文章生成部と、を備える、情報処理装置が提供される。かかる構成を有することにより、情報処理装置は、物体の状態を表す文章の提示によって、画像情報の認識結果を直感的に捉えさせることが可能となる。
【選択図】図1

Description

本開示は、情報処理装置、情報処理方法及びコンピュータプログラムに関する。
画像情報を基に物体を認識する技術が広く用いられている(例えば特許文献1等参照)。例えば、画像情報から顔や所定の物体を認識する技術は、デジタルカメラ、スマートフォン、パーソナルコンピュータで動作する画像処理ソフトウェア、ロボット装置等で広く用いられている。
特開2013−175956号公報
画像情報の認識結果は、画面上のX−Yの2軸、または奥行きを考慮した3軸上の位置関係として捉えることが出来る。しかし、この認識結果は物理的な数字情報として表現されるので、認識結果を直感的に判断することが難しい。
そこで本開示では、画像情報の認識結果を直感的に捉えさせることが可能な、新規かつ改良された情報処理装置、情報処理方法及びコンピュータプログラムを提案する。
本開示によれば、画像に含まれる所定の物体に関連する情報である物体情報を取得する物体情報取得部と、前記物体情報取得部が取得した前記物体情報を用いて前記画像に含まれている前記物体の状態を表す文章を生成する文章生成部と、を備える、情報処理装置が提供される。
また本開示によれば、画像に含まれる所定の物体に関連する情報である物体情報を取得することと、取得した前記物体情報を用いて前記画像に含まれている前記物体の状態を表す文章を生成することと、を含む、情報処理方法が提供される。
また本開示によれば、コンピュータに、画像に含まれる所定の物体に関連する情報である物体情報を取得することと、取得した前記物体情報を用いて前記画像に含まれている前記物体の状態を表す文章を生成することと、を実行させる、コンピュータプログラムが提供される。
以上説明したように本開示によれば、画像情報の認識結果を直感的に捉えさせることが可能な、新規かつ改良された情報処理装置、情報処理方法及びコンピュータプログラムを提供することが出来る。
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態に係る画像処理装置100の機能構成例を示す説明図である。 本開示の一実施形態に係る画像処理装置100の動作例を示す流れ図である。 本開示の一実施形態に係る画像処理装置100の動作例を示す流れ図である。 画像位置言語情報変換部120による画像情報i101の画像領域の分割例を示す説明図である。 言語位置情報対応テーブルi102に格納される、領域名と言語としての名称との対応例である。 程度副詞レベルテーブルi103に格納される、レベルと副詞との対応例である。 画像入力装置10から画像処理装置100へ入力される画像情報i101の例を示す説明図である。 画像入力装置10から画像処理装置100へ入力される画像情報i101の例を示す説明図である。 再分割時の程度レベルの例を示す説明図である。 画像処理装置100が使用する文生成テンプレートi104の一例を示す説明図である。 画像入力装置10から画像処理装置100へ入力される画像情報i101の例を示す説明図である。 画像入力装置10から画像処理装置100へ入力される画像情報i101の別の例を示す説明図である。 認識物体の重なりの状態の表現について示す説明図である。 画像入力装置10から画像処理装置100へ入力される画像情報i101の別の例を示す説明図である。 画像入力装置10から画像処理装置100へ入力される画像情報i101の別の例を示す説明図である。 画像処理装置100による、画像情報i101から認識物体を除外する処理の一例を示す説明図である。 本開示の一実施形態に係る画像処理装置100の変形例を示す説明図である。 検索条件との相違点の提示例を示す説明図である。 画像検索処理のGUI(Graphical User Interface)の例である。 本開示の一実施形態に係る画像処理装置100の変形例を示す説明図である。 ハードウェア構成例を示す説明図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.本開示の一実施形態
1.1.概要
1.2.機能構成例
1.3.動作例
1.4.変形例
2.ハードウェア構成例
3.まとめ
<1.本開示の一実施形態>
[1.1.概要]
まず、本開示の好適な実施の形態について詳細に説明するにあたり、本実施形態の概要について説明する。上述したように、画像情報を基に物体を認識する技術が広く用いられ、画像情報から顔や所定の物体を認識する技術は、デジタルカメラ、スマートフォン、パーソナルコンピュータで動作する画像処理ソフトウェア、ロボット装置等で広く用いられている。
このような既存の画像処理技術は、認識対象の物体が画像中のどの位置にあるかを、画面上のX−Yの2軸、または奥行きを考慮した3軸上の位置関係として捉えていた。しかし、この認識結果は物理的な数字情報として表現されるので、認識結果を直感的に判断することが難しい。特に、目の不自由な人に対して画像の認識結果を提示する場合、物理的な数字情報を提示しても、その人は、その画像がどのような画像であるのかを理解することは困難である。
また健常者であっても、画像を注視することが難しい環境、例えば自動車を運転している際のカーナビゲーションシステムや、ウェアラブルコンピュータの使用時においては、どのような画像が認識されているのかの判断が困難となる。
そこで、本件開示者らは、画像の認識結果を定性的な表現として提示するための技術について検討を行なった。そして本件開示者らは、以下で説明するように、画像の認識結果を言語情報に変換する処理を実行することで、画像情報の認識結果をユーザに直感的に捉えさせることが可能となる技術を想到するに至った。
以上、本実施形態の概要について説明した。続いて、本開示の好適な実施の形態について詳細に説明する。まず、本開示の一実施形態に係る画像処理装置の機能構成例について説明する。
[1.2.機能構成例]
次に、図面を参照しながら本開示の一実施形態に係る画像処理装置の機能構成例について説明する。図1は、本開示の一実施形態に係る画像処理装置100の機能構成例を示す説明図である。以下、図1を用いて本開示の一実施形態に係る画像処理装置100の機能構成例について説明する。
図1に示した画像処理装置100は、画像入力装置10から送られる画像情報i101に対する画像処理を実行し、画像情報i101に含まれる物体を認識し、その物体の位置関係を言語で表現することを目的とした装置である。なお、画像処理装置100も画像情報i101を提供する画像入力装置10は、例えば画像を撮像するデジタルカメラ、スマートフォン、タブレット端末等の装置であってもよく、画像が記録されているパーソナルコンピュータ等の装置であってもよい。また画像入力装置10が提供する画像情報i101は、静止画であってもよく、動画であってもよい。
図1に示したように、本開示の一実施形態に係る画像処理装置100は、画像処理部110と、画像位置言語情報変換部120と、言語生成部130と、輪郭情報処理部140と、RGB色名変換部150と、背景処理部160と、を含んで構成される。
画像処理部110は、画像入力装置10が提供する画像情報i101に対する画像処理を実行し、画像情報i101に含まれる物体を認識する。図1に示したように、画像処理部110は、物体認識部111と、画像認識領域設定部112と、物体位置情報抽出部113と、を含んで構成される。
物体認識部111は、画像情報i101に含まれている所定の物体の認識を実行する。物体認識部111が認識の対象とする物体は特定の物体に限定されるものではなく、様々な物体が認識の対象となり得る。物体認識部111は、画像情報i101に含まれている物体の認識の実行により、画像情報i101にどのような物体がいくつ存在しているか、を認識することが出来る。物体認識部111は、画像情報i101に対する認識処理の結果として得られる認識物体に関する情報、例えば認識した物体の名称や、認識した物体の数の情報等を画像位置言語情報変換部120に送る。
画像認識領域設定部112は、画像情報i101に対して物体認識部111が物体の認識を実行する範囲を設定する。物体認識部111は、画像認識領域設定部112が設定した画像情報i101の範囲に対して、画像情報i101に含まれている所定の物体の認識を実行する。画像認識領域設定部112は、最初に画像情報i101に対して物体認識部111が物体の認識を実行する際には画像情報i101の全範囲について処理を実行するように領域を設定し、例えばユーザなどから、検出した物体の近傍について再認識の要求があれば、その物体の近傍に限定して処理を実行するように領域を設定してもよい。
物体位置情報抽出部113は、物体認識部111が認識した、画像情報i101に含まれている所定の物体の、画像情報i101における位置を位置情報として抽出する。物体位置情報抽出部113は、画像情報i101に含まれている所定の物体の重心の位置を、位置情報として抽出しても良い。物体位置情報抽出部113は、画像情報i101に含まれている所定の物体の重心の位置を、位置情報として抽出する場合は、その重心の位置を積分により求めても良い。物体位置情報抽出部113は、画像情報i101に含まれている所定の物体の位置情報を画像位置言語情報変換部120に送る。
画像位置言語情報変換部120は、画像処理部110から送られてくる情報、具体的には、物体認識部111から送られる認識物体に関する情報、及び物体位置情報抽出部113が抽出した位置情報を、言語情報に変換する処理を実行する。画像位置言語情報変換部120は、言語情報として、画像情報i101のどこにどのような物体が存在しているか、についての情報を生成する。画像位置言語情報変換部120による具体的な変換処理については、後に詳述するが、変換に際しては、画像位置言語情報変換部120は、言語位置情報対応テーブルi102と、程度副詞レベルテーブルi103と、を用いる。画像位置言語情報変換部120は、画像処理部110から送られてくる情報を言語情報に変換すると、その言語情報を言語生成部130に送る。
言語生成部130は、画像位置言語情報変換部120から送られてくる言語情報を用いて、画像情報i101の状態を表す言語情報i105、すなわち画像情報i101の状態を表す文章を生成する。本実施形態では、言語生成部130は、画像情報i101の状態を表す文章の生成に際し、文生成テンプレートi104に格納されているテンプレートに、画像位置言語情報変換部120から送られてくる言語情報を適用することで、画像情報i101の状態を表す文章を生成する。言語生成部130による、画像情報i101の状態を表す文章の生成処理の詳細については後述する。
輪郭情報処理部140は、画像処理部110から送られてくる情報を用いて、物体認識部111が認識した物体の輪郭の座標情報を取得する。輪郭情報処理部140は、物体の輪郭の座標情報の取得に際し、例えば公知のエッジ検出処理を用いることが出来る。輪郭情報処理部140は、物体の輪郭の座標情報を画像位置言語情報変換部120に送る。画像位置言語情報変換部120は、物体の輪郭の座標情報を取得することで、画像情報i101に物体が複数存在する場合に、その物体が重なっているかどうかを判断することが出来るとともに、その重なりの状態に応じた言語情報を生成することが出来る。
RGB色名変換部150は、画像処理部110から送られてくる情報、具体的には、物体認識部111から送られる認識物体に関する情報を用いて、その認識物体の色を取得する。RGB色名変換部150は、認識物体の色の情報を言語生成部130に送る。言語生成部130は、RGB色名変換部150から認識物体の色の情報を得ることで、画像情報i101の状態を表す文章に、物体認識部111が認識した物体の色の情報を加えることが出来る。
背景処理部160は、画像情報i101の背景がどのようなものであるかを取得する処理を実行する。具体的には、背景処理部160は、画像処理部110から送られてくる情報を用いて、物体認識部111が認識した認識物体を画像情報i101から取り除く画像処理を実行する。そして背景処理部160は、認識物体を取り除いた画像情報i101を画像検索装置20に送る。画像検索装置20は、画像について検索処理を実行する公知の装置を使用することが可能である。背景処理部160は、画像検索装置20での検索結果を取得し、画像情報i101の背景に関する情報を得る。背景処理部160は、画像情報i101の背景に関する情報を言語生成部130に送る。言語生成部130は、背景処理部160から画像情報i101の背景に関する情報を得ることで、画像情報i101の状態を表す文章に、画像情報i101の背景の情報を加える事ができる。
以上、図1を用いて本開示の一実施形態に係る画像処理装置100の機能構成例について説明した。続いて、本開示の一実施形態に係る画像処理装置100の動作例について説明する。
[1.3.動作例]
図2A及び図2Bは、本開示の一実施形態に係る画像処理装置100の動作例を示す流れ図である。図2A及び図2Bに示したのは、画像情報i101から、画像情報i101の状態を表す言語情報i105を生成する際の、本開示の一実施形態に係る画像処理装置100の動作例である。以下、図2A及び図2Bを用いて本開示の一実施形態に係る画像処理装置100の動作例について説明する。
画像処理装置100は、まず画像入力装置10から画像情報i101を入力する(ステップS101)。この画像情報i101は静止画であってもよく、動画であっても良いが、まずは画像情報i101が静止画である例を示す。画像入力装置10から画像情報i101を入力すると、続いて画像処理装置100は、画像情報i101に含まれる物体の認識を行なう(ステップS102)。このステップS102の認識処理は、例えば画像処理部110が、具体的には物体認識部111が実行する。画像処理装置100は、ステップS102の認識処理により、物体の名称、物体の色、画像情報i101における物体の大きさや位置を取得する。画像処理装置100は、ステップS102の認識処理の際に、例えば、公知の物体認識処理を実行することが出来る。入力画像から、人物や自動車等の物体を認識するとともに、その認識した物体が何であるかを認識する技術は広く知られており、この物体認識処理は、例えばカメラの自動シャッタや監視カメラに適用されるなどして広く実用化されているものである。具体的には、この物体認識処理は、入力画像の解析により入力画像中の物体を認識し、その認識した物体が何であるかを、例えばデータベースなどに対する検索により取得することで、入力画像から何が写っているかを把握する処理である。
画像情報i101に含まれる物体の認識をステップS102で行なうと、続いて画像処理装置100は、認識した物体が画像中のどの場所にあるかを抽出する。まず画像処理装置100は、認識した物体の重心を算出する(ステップS103)。このステップS103の処理は、例えば画像処理部110が、具体的には物体位置情報抽出部113が実行する。ステップS103では、例えば認識した物体に対する積分により重心が算出されても良い。
認識した物体の重心をステップS103で算出すると、続いて画像処理装置100は、画像情報i101の画像領域を分割する(ステップS104)。このステップS104の処理は、例えば画像位置言語情報変換部120が実行する。本実施形態では、画像位置言語情報変換部120は、画像全体のX−Y座標の最大値を基に、X軸、Y軸それぞれに対して3等分するように領域を分割する。
図3は、画像位置言語情報変換部120による画像情報i101の画像領域の分割例を示す説明図である。図3に示した例では、画像位置言語情報変換部120は、画像全体のX−Y座標の最大値を基に、X軸、Y軸それぞれに対して3等分するように領域を分割した上で、各領域にAからIまでのアルファベットで領域名を付与している。
また画像位置言語情報変換部120は、分割した各領域に対して、言語としての名称を割り当てる。この割り当てに際しては、画像位置言語情報変換部120は言語位置情報対応テーブルi102を参照する。図4は、言語位置情報対応テーブルi102に格納される、領域名と言語としての名称との対応例である。例えば領域Aであれば「左上」や「左の上」という名称に対応する。
画像情報i101の画像領域を分割すると、続いて画像処理装置100は、認識した物体の重心が画像情報i101のどの領域に位置しているかを判別する(ステップS105)。このステップS105の処理は、例えば画像位置言語情報変換部120が実行する。
図6は、画像入力装置10から画像処理装置100へ入力される画像情報i101の例を示す説明図である。図6では、人間の顔200が画像情報i101に存在している場合の例が示されている。上記ステップS102で、人間の顔200の検出が行われ、上記ステップS103で、人間の顔200の重心201の算出が行われる。そして、上記ステップS105で、認識した人間の顔200の重心201が画像情報i101のどの領域に位置しているかが判別される。図6に示した例では、重心201は領域Aに位置していることが分かる。
物体の重心が画像情報i101のどの領域に位置しているかをステップS105で判別すると、続いて画像処理装置100は、その重心のある領域の言語変換を行なう(ステップS106)。このステップS105の処理は、例えば画像位置言語情報変換部120が実行する。図6に示したように重心201は領域Aに位置していることがステップS105で判別できれば、画像処理装置100は、図4に一例を示した言語位置情報対応テーブルi102を参照し、ステップS106において、領域Aを「左上」という単語に変換する。
これで重心のある領域の言語変換が行われたが、画像処理装置100は、その重心のある領域についてより細かく判別処理及び言語変換を行なっても良い。
重心のある領域の言語変換をステップS106で行なうと、続いて画像処理装置100は、その重心のある領域をさらに分割する(ステップS107)。このステップS107の処理は、例えば画像位置言語情報変換部120が実行する。本実施形態では、画像位置言語情報変換部120は、重心のある領域のX−Y座標の最大値を基に、X軸、Y軸それぞれに対して3等分するように領域を分割する。
重心のある領域を分割すると、続いて画像処理装置100は、認識した物体の重心が、重心のある領域の中の、どの分割後の領域に位置しているかを判別する。そして画像処理装置100は、認識した物体の重心が、重心のある領域の中の、どの分割後の領域に位置しているかを判別すると、その位置に応じた程度を示す副詞を、上記ステップS106で変換した言語(単語)に付与する(ステップS108)。このステップS108の処理は、例えば画像位置言語情報変換部120が実行する。
副詞の付与に際しては、画像位置言語情報変換部120は程度副詞レベルテーブルi103を参照する。図5は、程度副詞レベルテーブルi103に格納される、レベルと副詞との対応例である。図5に示した例では、レベル「大」に対応する副詞として「とても」、「かなり」、「すごく」、「たいへん」等の副詞が割り当てられている。
図7は、画像入力装置10から画像処理装置100へ入力される画像情報i101から領域Aを抜き出した状態を示す説明図である。上記ステップS108で、認識した人間の顔200の重心201が画像情報i101の領域Aの中のどの領域に位置しているかが判別される。図7に示した例では、重心201は、領域Aの中の、領域Iに位置していることが分かる。
再分割時の程度レベルは、元の領域と再分割後の領域との組み合わせによりにより、大、中、小の3つのレベルに分割される。図8は、再分割時の程度レベルの例を示す説明図である。横軸が最初の分割時の分割領域を示し、縦軸が再分割後の分割領域を示す。つまり、最初の分割時の分割領域が領域Aであり、再分割後の分割領域が領域Iであれば、程度レベルは「小」であることが分かる。そして図5に示した程度副詞レベルテーブルi103を参照すると、レベル「小」に対応する副詞として「少し」、「ちょっとだけ」、「やや」等の副詞が割り当てられていることが分かる。
従って画像位置言語情報変換部120は、図7のような画像情報i101が画像入力装置10から入力された場合、図8に示した再分割時の程度レベルを参照し、例えば「少し左上」という単語に変換する。なお、この領域の分割処理は、上記ステップS102の認識処理で認識した物体の重心が分割後の領域の中心になるまで繰り返されても良い。
上記ステップS108の処理が完了すると、続いて画像処理装置100は、上記ステップS102の認識処理で認識した物体が1つだけかどうかを判断する(ステップS109)。このステップS109の判断は、例えば画像位置言語情報変換部120が実行し得る。
上記ステップS109の判断の結果、上記ステップS102の認識処理で認識した物体が1つだけであった場合は(ステップS109、Yes)、続いて画像処理装置100は、文生成テンプレートi104を参照して、上記ステップS108で変換した単語に文生成テンプレートi104を適用することで文を生成する(ステップS110)。このステップS110の処理は、例えば言語生成部130が実行する。
図9は、画像処理装置100が使用する文生成テンプレートi104の一例を示す説明図である。図9に示した文生成テンプレートi104の<target−n>タグには、物体認識部111の認識処理によって得られた物体名が当てはめられる。<position−n>タグには、画像位置言語情報変換部120の変換処理より得られるその画像の位置の言語情報が当てはめられる。<conection−n>タグには、画像位置言語情報変換部120より得られる物体の重なり情報が当てはめられる。<color−n>タグには、RGB色名変換部150より得られる物体の色情報が当てはめられる。<action−n>タグには、画像入力装置10から送られる画像情報i101が動画像の際の、画像位置言語情報変換部120の変換処理より得られる物体の動きが当てはめられる。
例えば、図6や図7の入力画像例のように、顔が画像の少し左上に位置している場合、言語生成部130は、文生成テンプレートi104を参照し、<position−1>に「少し左上」を、<target−1>に「顔」を適用することで、例えば「画面の少し左上に顔があります。」という文章を作成する。
言語生成部130は、文生成テンプレートi104を参照して、テンプレートの各タグに上記ステップS108で変換した単語を当てはめて、テンプレートに合致する文章の中から少なくとも1つの文章を作成する。テンプレートからの文章の選択は、ユーザによりあらかじめなされていてもよく、物体認識の対象物の数や認識領域の違いによりなされるようにしてもよい。
上記ステップS110で、文生成テンプレートi104の適用によって文を生成すると、続いて画像処理装置100は、テンプレートに「認識物体名」、「絶対/相対位置」、「色」、「大きさ」、「奥行き」等の、物体に関する内容を補完して、文章を作成する(ステップS111)。このステップS111の処理は、例えば言語生成部130が実行する。
例えば、画像情報i101に含まれる顔が太郎君の顔であることを物体認識部111が認識した場合は、言語生成部130は、「顔」に「太郎の」または「太郎君の」という語句を補完して、「画面の少し左上に太郎の顔があります。」または「画面の少し左上に太郎君の顔があります。」という文章を作成する。なお、ステップS102の認識処理で認識した物体が1つだけの場合は、物体同士の位置関係を補完する必要はないが、後述のようにステップS102の認識処理で認識した物体が2つ以上の場合は、言語生成部130は、物体同士の位置関係を補完する。言語生成部130は、物体同士の位置関係を補完することで、画像情報i101における物体同士の関係性がよりわかりやすい文章に変換することが出来る。
上記ステップS111で、テンプレートへ物体に関する内容を補完して文章を作成すると、続いて画像処理装置100は、画像情報i101に対する背景処理を実行する(ステップS112)。このステップS111の処理は、例えば背景処理部160が実行する。背景処理部160は、画像処理部110から送られてくる情報を用いて、物体認識部111が認識した認識物体を画像情報i101から取り除く画像処理を実行する。そして背景処理部160は、認識物体を取り除いた画像情報i101を画像検索装置20に送る。画像検索装置20は、画像について検索処理を実行する公知の装置を使用することが可能である。背景処理部160は、画像検索装置20での検索結果を取得し、画像情報i101の背景に関する情報を得る。背景処理部160は、画像情報i101の背景に関する情報を言語生成部130に送る。
上記ステップS111で背景処理を実行すると、続いて画像処理装置100は、背景処理によって得られる背景に関する内容を補完して、文章を作成する(ステップS113)。このステップS111の処理は、例えば言語生成部130が実行する。言語生成部130は、背景処理部160から画像情報i101の背景に関する情報を得ることで、画像情報i101の状態を表す文章に、画像情報i101の背景の情報を加える事ができる。例えば、背景処理の結果として、背景に富士山が写っていることが分かった場合、言語生成部130は、例えば「富士山を背景に、画面の少し左上に太郎の顔があります。」という文章を生成することが出来る。背景処理部160での背景処理の例については後述する。
一方、上記ステップS109の判断の結果、上記ステップS102の認識処理で認識した物体が2つ以上であった場合は(ステップS109、No)、続いて画像処理装置100は、認識した物体の中から基準となる物体(以下、この基準となる物体のことを「基準物体」とも称する)を決定する。例えば画像処理装置100は、認識した物体の中で最も面積が大きい物体を基準物体に決定する(ステップS114)。このステップS114の処理は、例えば画像位置言語情報変換部120が実行し得る。なお、画像処理装置100は、認識した物体の中で最も面積が大きい物体ではなく、最も画像情報i101の中心に近い物体を基準物体に決定してもよい。また、画像処理装置100は、面積や位置の基準の他に、認識した物体の中で最も輝度または彩度が高い物体を基準物体に決定してもよい。
上記ステップS114で基準物体を決定すると、続いて画像処理装置100は、認識物体が全て同じ領域にあるかどうかを判断する(ステップS115)。このステップS115の処理は、例えば画像位置言語情報変換部120が実行し得る。ステップS115の判断の結果、認識物体が全て同じ領域にある場合は(ステップS115、Yes)、続いて画像処理装置100は、文章の生成に際して絶対位置情報を優先する(ステップS116)。一方ステップS115の判断の結果、認識物体が全て同じ領域では無い場合は(ステップS115、No)、続いて画像処理装置100は、文章の生成に際して相対位置情報を優先する(ステップS117)。
文章の生成に際して絶対位置情報を優先する場合は、画像処理装置100は、例えば「太郎の顔と花子の顔が左上にあります」という文章を生成することが出来る。また文章の生成に際して相対位置情報を優先する場合は、画像処理装置100は、認識した「太郎の顔」を基準物体にする場合、例えば「太郎の顔が画像の左上にあり、花子の顔が太郎の顔の右下にあります」という文章を生成することが出来る。すなわち、状態を表現したい物体の位置を、基準物体との相対位置として表現する文章を生成することができる。
上記ステップS116またはステップS117で、絶対位置情報または相対位置情報を優先することを決定すると、続いて画像処理装置100は、複数の認識物体間の相対位置を算出する(ステップS118)。ステップS118の、複数の認識物体間の相対位置の算出処理は、例えば画像位置言語情報変換部120が実行する。ステップS118で複数の認識物体間の相対位置を算出すると、続いて画像処理装置100は、複数の認識物体間の相対位置の言語変換を行なう(ステップS119)。このステップS119の処理は、例えば画像位置言語情報変換部120が実行する。
図10は、画像入力装置10から画像処理装置100へ入力される画像情報i101の例を示す説明図である。図10では、自動車300及び人間400が画像情報i101に存在している場合の例が示されている。また符号301は自動車300の重心を、符号401は人間400の重心を、それぞれ示している。
画像処理装置100は、上記ステップS118で、自動車300及び人間400との間の相対位置を算出する。画像情報i101のX座標及びY座標の最大値をそれぞれ100とする。画像処理装置100の物体認識処理の結果によって、自動車300の座標が(X,Y)=(15,50)、人間400の座標が(X,Y)=(70,40)であることが分かったとする。すると画像処理装置100は、上記ステップS118で、「自動車」の「右下」に「人間」が、「人間」の「左上」に「自動車」が位置するという、2つの認識物体と認識物体間の位置関係という、3つの要素からなる相対位置情報を生成することが出来る。
上記ステップS119で複数の認識物体間の相対位置の言語変換を行なうと、続いて画像処理装置100は、X軸及びY軸におけるそれぞれの相対距離の、全画面に対する程度を示す程度副詞を付与する(ステップS120)。このステップS120の処理は、例えば画像位置言語情報変換部120が実行する。程度の変換方法としては、例えば、X軸、Y軸それぞれの取りうる最大値を100とした場合に対して2つの物体の距離が75を超える場合は「レベル大」、25を下回る場合は「レベル小」、それ以外は「レベル中」と判断してもよい。もちろん、この閾値は任意に変更可能であることは言うまでもない。距離の程度が判別されると、画像処理装置100は、図5に示した程度副詞レベルテーブルi103を参照して程度副詞を相対位置情報に付加する。
図10のように自動車300及び人間400が画像情報i101に存在している場合は、画像処理装置100は、程度副詞レベルテーブルi103を適用することにより、「自動車:右少し下:人間」、または「人間:左少し上:自動車」という相対位置情報を取得することが出来る。なお、X軸とY軸のそれぞれに対して相対距離の程度が同じ場合、例えばX軸とY軸のいずれについても「レベル小」の場合は、画像処理装置100は、「少し右少し下」という表現は取らず、「少し右下」というように程度表現を一つにまとめてもよい。図11は、画像入力装置10から画像処理装置100へ入力される画像情報i101の別の例を示す説明図である。図11では、自動車300及び人間400が画像情報i101に存在している場合の例が示されている。このように相対距離の程度が同じ場合、画像処理装置100は、「自動車:少し右下:人間」、または「人間:少し左上:自動車」という相対位置情報を取得することが出来る。
上記ステップS120で程度副詞を付与すると、続いて画像処理装置100は、認識物体の重なりを判別する(ステップS121)。ステップS121の処理は、例えば画像位置言語情報変換部120が実行し得る。そしてステップS121で認識物体の重なりを判別すると、続いて画像処理装置100は、重なり関係の言語変換処理を実行する(ステップS122)。ステップS122の処理は、例えば画像位置言語情報変換部120が実行し得る。
上述したように、輪郭情報処理部140は、画像処理部110から送られてくる情報を用いて、物体認識部111が認識した物体の輪郭の座標情報を取得する。そして輪郭情報処理部140は、物体の輪郭の座標情報を画像位置言語情報変換部120に送る。画像位置言語情報変換部120は、物体の輪郭の座標情報を取得することで、画像情報i101に物体が複数存在する場合に、その物体が重なっているかどうかを判断することが出来るとともに、その重なりの状態に応じた言語情報を生成することが出来る。
本実施形態では、「含んでいる/含まれる」「重なっている」「接している」「離れている」という4つのパターンによって認識物体の重なりの状態を表現する。図12は、それぞれの認識物体の重なりの状態の表現について示す説明図である。図12には、認識物体である三角形の物体と丸い物体とが、どのような重なりの状態にあるかが示されている。画像処理装置100は、上記ステップS121において、認識物体の重なりを判別し、上記ステップS122において、上記4つのパターンのいずれかを用いて、認識物体の重なり関係を言語に変換する。例えば、認識物体の状態が図12の左上の状態であれば、画像処理装置100は、「三角形:接している:丸」というような言語情報に変換することができる。
画像処理装置100は、2つの認識物体が重なっている場合は、その重なりの面積の比率の程度によりその重なりの程度を表現しても良い。画像処理装置100は、例えば2つの認識物体である物体1と物体2とが重なっている場合、物体1と物体2とが重なっている部分の面積が物体1の面積の25%以下の場合は重なりの程度を「小」、75%以上の場合は「大」、それ以外の場合を「中」としてもよい。この程度の決定は輪郭情報処理部140が実行してもよい。また2つの認識物体が離れている場合は、画像処理装置100は、それぞれの認識物体の重心の距離を求め、認識物体の重心間の距離に応じて程度情報を決定してもよい。画像処理装置100は、認識物体の重心間の距離が画面全体の対角線の長さに対して、例えば25%以内である場合は離れている距離の程度を「小」、75%以上の場合は「大」、それ以外の場合を「中」としてもよい。
そして上記ステップS122で、重なり関係の言語変換処理を実行すると、続いて画像処理装置100は、認識物体の重なりの程度の情報と、程度副詞レベルテーブルi103とを参照して、程度副詞を付与した言語情報に変換する(ステップS123)。このステップS122の処理は、例えば画像位置言語情報変換部120が実行し得る。画像処理装置100は、ステップS123で、「少し重なっている」、「かなり重なっている」、「少し離れている」、「かなり離れている」などの程度副詞を付与した言語情報に変換することが出来る。
画像処理装置100は、3次元画像の画像処理を実行してもよく、対象の画像情報i101が3次元画像である場合、相対位置として奥行き方向のZ軸を処理対象に加えても良い。画像処理装置100は、対象の画像情報i101が3次元画像である場合、認識物体の奥行きを判別する(ステップS124)。ステップS124の処理は、例えば画像位置言語情報変換部120が実行し得る。そしてステップS124で認識物体の奥行きを判別すると、続いて画像処理装置100は、奥行き関係の言語変換処理を実行する(ステップS125)。ステップS125の処理は、例えば画像位置言語情報変換部120が実行し得る。そして画像処理装置100は、奥行きの関係に応じて程度副詞を付与した言語情報に変換する(ステップS126)。ステップS126の処理は、例えば画像位置言語情報変換部120が実行し得る。画像処理装置100は、ステップS126で、「少し奥にいる」、「かなり奥にいる」、「少し手前にいる」、「かなり手前にいる」などの程度副詞を付与した言語情報に変換することが出来る。
認識物体が2つ以上の場合の一連の処理が終了すると、続いて画像処理装置100は、上記ステップS110の文生成テンプレートの参照処理に移行し、文章の作成を完了させる。例えば文章の生成に際して相対位置情報を優先する場合は、画像処理装置100は、図9に示した文生成テンプレートi104における相対位置用のテンプレートを用いて文章を生成する。また画像処理装置100は、文生成テンプレートi104を用いて認識物体が2つ以上の場合の文章を生成する際に、上記ステップS114で決定した基準物体からの相対的な位置を文生成テンプレートi104に当てはめても良い。また画像処理装置100は、基準物体を基準として、認識された他の物体の相対位置を表す文章だけでなく、例えば基準物体を基準として、認識された他の物体の大きさ、形状、色などの相対的な状態の表現を含んだ文章を、文生成テンプレートi104を用いて言語生成部130で生成してもよい。例えば、画像情報i101から2つの物体A、Bと、それらの物体の大きさ、形状、色などの状態が認識され、物体Aが基準物体に決定された場合を考える。言語生成部130は、物体Aを基準とした他の物体の相対的な状態を示す文章として、「Aよりも大きいのがBです。」、「Aよりも高いのがBです。」、「Aよりも赤いのがBです。」のような文章を、文生成テンプレートi104を用いて生成しても良い。
ここで、上記ステップS111での、画像処理装置100による色情報の補完処理について説明する。認識物体のRGB情報はRGB色名変換部150に送られ、RGB色名変換部150によって認識物体の代表的な色を得ることが可能である。例えば、代表的な色は、認識物体の中で一番多くの面積を占める色とする。
RGB色名変換部150で得られた色情報は言語生成部130に渡される。言語生成部130は、上述したように文生成テンプレートi104を参照して文の生成を行うが、文の生成の際に、文生成テンプレートi104上の<color−n>タグを、RGB色名変換部150で得られた色情報に置き換える形で文生成を行う。
図13は、画像入力装置10から画像処理装置100へ入力される画像情報i101の別の例を示す説明図である。図13には、机の上に赤いリンゴが2個ある画像情報i101が示されている。従って、図13に示した画像情報i101を画像処理装置100で処理すると、画像処理装置100は上述の一連の処理により、言語生成部130において「机の上に赤いリンゴと赤いリンゴがあります」ではなく、「机の上に赤いリンゴが2個あります」または「机の上に2つの赤いリンゴがあります」のような文を生成すること出来る。
認識物体に複数の色が含まれている場合で、かつ、それぞれの色の占める面積が所定の閾値(例えば該認識物体の面積の40%)を超える場合は、RGB色名変換部150は、複数の色の組み合わせを認識物体の色情報に決定してもよい。例えば、ある認識物体が、赤色と青色とが半分ずつの物体である場合は、RGB色名変換部150は、「赤と青」のように2つの色の組み合わせを認識物体の色情報に決定してもよい。
上記の生成文では「2個」という個数が言語化されている。個数の言語化は言語生成部130において実行されても良い。言語生成部130は、入力される認識物体の中で、複数の条件が同じものをまとめて、その認識物体の数を数える。図13に示した画像情報i101の例では、画像処理装置100は、「認識物体名」(リンゴ)、「机との相対位置」(机の上)、「色」(赤い)の3つの要素が同じであった場合に、認識物体の数をまとめて、文生成テンプレートi104上の<count−n>タグに相当する部分に言語情報として補完する形で文を生成している。
このように言語生成部130は、入力される認識物体の中で、複数の条件が同じものをまとめて、言語情報を生成することが出来る。なお、言語生成部130は、同一名の物体の絶対位置情報が異なる場合は、位置情報を用いずに言語情報を生成してもよい。また言語生成部130は、同一名の物体の色情報が異なる場合は、集約を行わずにそれぞれ別の物体として言語情報を生成してもよい。また言語生成部130は、画像情報i101に同じ物体が存在していても、同一名の物体の大きさが異なる場合は集約を行わずにそれぞれ別の物体として言語情報を生成してもよい。
画像処理装置100は、認識物体の輪郭から認識物体の面積を求め、画面全体における割合に応じて、認識物体の大きさを言語により表現してもよい。例えば、画面全体の面積に対して認識物体の面積が30%以上ある場合は「大きい」と定義し、3%以下の場合は「小さい」と定義する。図14は、画像入力装置10から画像処理装置100へ入力される画像情報i101の別の例を示す説明図である。図14に示した例では、画像処理装置100は、「画面の左上に大きな三角の中に小さな丸があります」という文を生成することが出来る。
画像処理装置100は、画像情報i101から認識物体を除外して、画像情報i101の背景に何が写っているかを画像検索装置20での検索の結果から取得してもよい。画像情報i101から認識物体を除外する処理や、画像検索装置20での検索の結果を取得する処理は背景処理部160が実行し得る。
図15は、画像処理装置100による、画像情報i101から認識物体を除外する処理の一例を示す説明図である。図15の左側には、認識物体として自動車300及び人間400が存在し、また背景として山や森が写っている画像情報i101が示されている。背景処理部160は、画像情報i101から自動車300及び人間400を除外し、その除外後の画像情報i101を画像検索装置20に渡す。図15の右側には、画像情報i101から自動車300及び人間400が除外され、山と森だけが写っている画像情報i101が示されている。
画像検索装置20は、認識物体(自動車300及び人間400)が除外された画像情報i101を用いて画像検索処理を実行し、例えば「大自然の山」、「山」、「山と森」等の結果を得る。そして画像検索装置20は、認識物体が除外された画像情報i101の画像検索処理の結果を画像処理装置100に返す。認識物体が除外された画像情報i101を用いた画像検索処理の結果を画像検索装置20から取得した背景処理部160は、その画像情報i101の画像検索処理の結果を言語生成部130に渡す。言語生成部130は、背景処理部160から取得した、認識物体が除外された画像情報i101を用いた画像検索処理の結果を、文生成テンプレートi104上の<back−n>タグに相当する部分に言語情報として補完する形で文を生成することが出来る。例えば言語生成部130は、図15に示した画像情報i101から「大自然の山を背景にやや左下に自動車があり、そのかなり右に人間がいます」というような文章を生成することが出来る。
背景処理部160は、元の画像情報i101から認識物体を除外した画像の内、最大の矩形領域を背景とみなしてもよい。そして背景処理部160は、画像検索装置20での画像検索処理により得られた画像の名称を背景の名称としてもよい。なお、元の画像情報i101から認識物体を削除した画像から背景が得られない場合もあり得る。その場合を考慮し、背景処理部160は、元の画像情報i101から認識物体を削除した画像の内、画像の中心となる色を背景名としてもよい。画像の中心となる色は、例えば最も広い範囲を占める色であってもよい。
上述した一連の処理によって、本実施形態に係る画像処理装置100は、「自動車の右少し下に人間がいます。」や「人間の左少し上に自動車があります。」という文を生成することが出来る。本実施形態に係る画像処理装置100は、文生成テンプレートi104からの文の選択に際して、ユーザによりあらかじめ選択されていてもよく、優先度が予め設定されていてもよく、物体認識の対象物の数の違いや、話題の中心になっている対象物により選択されていてもよい。話題の中心を取得する方法は特定の方法に限られるものではなく、例えばユーザが発話した音を文章に変換する機能を有する装置から該変換後の文章を取得し、その文章を解析することで話題の中心を取得する方法であってもよく、また例えばインターネット上でトレンドとなっている話題を取得する方法であってもよい。
以上、図2A及び図2Bを用いて本開示の一実施形態に係る画像処理装置100の動作例について説明した。図2A及び図2Bに示した流れ図の説明に際しては、画像情報i101は静止画であるとしたが、画像情報i101が動画像である場合は、画像処理装置100は、フレーム単位、また所定のフレーム毎に上述の一連の処理を実行することで、同様に画像情報i101から文章を作成することが出来る。また画像情報i101が動画像である場合は、画像処理装置100は、上述の一連の処理を実行することで、動画像のどの時刻でどのような画像が存在するかをリスト化することが出来る。
画像情報i101が動画像である場合、認識物体が移動していることがある。画像処理装置100は、物体の移動方向を、認識物体の重心の移動により判断することが可能である。画像位置言語情報変換部120は、認識物体が、例えば図3の領域Fから領域Gに移動していることが分かると、「右から左下へ移動」という言語情報を生成することが可能である。言語生成部130は、文生成テンプレートi104の<action−n>タグに、この画像位置言語情報変換部120が生成した言語情報を適用し、「自動車が右から左下に移動しています。」という文章を生成することができる。
[1.3.変形例]
(画像検索処理)
本開示の一実施形態に係る画像処理装置100は、上述したような構成を有し、上述したような動作を実行することで、画像情報i101を文章に変換することが出来る。本開示の一実施形態に係る画像処理装置100は、画像情報i101から得られる文章のインデックスを作成しても良い。そして画像処理装置100は、テキスト情報を用いてインデックスを検索することで、テキスト情報による画像情報の検索が可能になる。
図16は、本開示の一実施形態に係る画像処理装置100の変形例を示す説明図である。図16に示した画像処理装置100は、図1に示した画像処理装置100に、さらにインデックス生成部170と、画像検索部180と、が追加されたものが示されている。インデックス生成部170は言語生成部130が生成した言語情報i105を用いてインデックス情報i106を生成する。インデックス生成部170が生成するインデックス情報i106は、その基になる画像情報i101と対応付けて保存される。インデックス生成部170は、インデックス情報i106を生成する際に、物体に関しては概念情報(オントロジー)を用いてもよい。またインデックス生成部170は、インデックス情報i106を生成する際に、RGB色名変換部150での処理とは逆に、テキストからRGBなどのカラーコードに変換してもよい。
画像検索部180は、インデックス生成部170が生成するインデックス情報i106の検索によって、検索条件に合致する、または検索条件に類似する画像情報i101を検索し、その画像情報i101を提示する。
インデックス生成部170が生成したインデックス情報i106の検索を画像検索部180が実行することで、本開示の一実施形態に係る画像処理装置100は、検索条件に合致する、または検索条件に類似する画像情報i101を探し出すことが可能になる。検索時の優先順位は、例えば物体名、色、大きさの順、位置関係の順とされてもよい。
画像検索部180は、インデックス生成部170が生成したインデックス情報i106の検索時に、例えばユーザに入力された検索条件中の単語の出現順により、画像検索時の優先度を変更してもよい。
また画像検索部180は、検索結果が検索条件と一部異なる場合は、その一致点や相違点を提示するようにしてもよい。また画像検索部180は、検索条件と一致した物体の輪郭を強調することにより、どの物体に検索条件が適合したかを提示してもよい。
画像検索部180は、検索条件との相違点の提示に際し、相違していることを表すアトリビュート(色、ブランキング、網掛けなど)により、相違点を提示してもよい。図17は、検索条件との相違点の提示例を示す説明図である。例えば検索文が「大自然を背景に青い車と人が写っている写真」というものであった場合、車の色以外の条件には合致するが、車の色が異なる画像が発見された場合、車の領域内を点滅させることで相違点を提示してもよく、車の輪郭を強調することで相違点を提示してもよく、車を枠で囲むことで相違点を提示してもよい。もちろん相違点の提示例はかかる例に限定されるものではない。
なお、検索条件との相違点が、背景や動き等の属性をつけにくいものである場合は、画像検索部180は、「背景が赤ではありません」等の、テキストにより検索条件を否定する形で表現してもよく、「背景が青です」等の、テキストにより検索条件との相違点を表現してもよい。
画像検索部180は、検索の履歴と検索結果に基づいて、次の検索結果の重み付けを変更してもよい。例えば、画像検索部180による検索結果に対して「もっと赤いもの」、「人が右にいるもの」、「もっと動きの遅いもの」、「背景がもう少し明るいもの」などの検索条件が指定されると、画像検索部180は、検索結果に対する絞り込み検索や、再検索を行なっても良い。
なお、画像検索部180は、検索結果を提示する際に、検索条件で指定された項目は必ず全て揃っていなくても良い。
また、画像検索部180による検索は音声認識を加えることにより音声により行われるようにしても良い。音声認識の結果が画像検索部180に逐次送られることで、自動的に会話の中に出てきた画像が具体化される。そして画像検索部180は、検索結果の履歴を逐次蓄積し、検索結果を表示することで、検索結果の視覚的な比較が可能になり、ユーザは、最終的に希望の画像を選択することが可能となる。
また画像検索部180は、検索結果をテキストで提示してもよく、テキストを音声合成し、音声によって提示してもよい。また画像検索部180は、検索結果に類似する画像を、さらに画像検索により検索してもよい。
図18は、本開示の一実施形態に係る画像処理装置100による画像検索処理のGUIの例である。符号501は検索条件を入力するためのテキストボックス、符号502は検索条件に合致する画像である。このように検索条件に合致する画像502が画面に表示された状態で、更に別の検索条件がテキストボックス501に入力されて検索が行われると、図18に示したように、前回の検索によって取得された画像が符号503で示すように画面の隅に表示されるようにしてもよい。
(シーンテキスト変換処理)
本開示の一実施形態に係る画像処理装置100は、画像情報i101から得られる文章によって、画像情報i101がどのようなシーンであるかを示すシーン情報を表現出来る。また本開示の一実施形態に係る画像処理装置100は、シーン情報のデータベースを構築することが出来る。
図19は、本開示の一実施形態に係る画像処理装置100の変形例を示す説明図である。図19に示した画像処理装置100は、図1に示した画像処理装置100に、さらにシーン認識部190が含まれている構成を有する。シーン認識部190は、言語情報i105から、画像情報i101がどのようなシーンであるかを認識し、シーン情報i107をデータベースで構築する。
シーン認識部190は、例えば、タグなどのメタテキストにより、「認識物体」、「動作」、「シーン表現」の3つのタグでシーンを表現し、シーン情報i107をデータベースで構築する。シーン表現は、例えば(認識物体→テキスト)+(動き→テキスト)=シーン表現(テキストまたはタグ)という形式で表される。認識物体には、物体の名前、色、形、大きさなどが指定される。シーン表現は、ユーザが自由に設定できる。また人物名は役名にまとめることも可能である。またシーン表現は、アトリビュートとして人物名、色、動きなどを指定できる。
シーン認識部190は、シーン情報i107の構築の際に、動画像である画像情報i101のコンテンツ名、先頭からの時間、物体認識結果を利用する。またシーン認識部190は、シーン情報i107の構築の際に、シーン変換テーブルi108を参照する。シーン変換テーブルi108は、言語情報i105に含まれている認識物体がどのような状態であればどのようなシーンであるかをまとめたテーブルである。以下にシーン変換テーブルi108に格納されるシーンデータの一例を示す。もちろんシーン変換テーブルi108に格納されるシーンデータはかかる例に限定されるものではない。
(シーン変換テーブルi108に格納されるシーンデータの一例)
人物+人物=共演
人物+人物+背景(海)=デートシーン
人物+人物+背景(夜景)=デートシーン
人物+背景(海)=海水浴シーン
人物+背景(海)=釣りシーン
唇+唇+同位置=キスシーン
山+煙=噴火シーン
人物+車のハンドル+人物の前=運転シーン
人物+犬=散歩シーン
シーン認識部190は、言語情報i105を用いて、シーン変換テーブルi108を参照してシーンタグやシーンテキストを生成する。例えばシーン認識部190は、「XさんとYさんがいます。」という言語情報i105から、以下の様なシーンタグやシーンテキストを生成する。なお、以下で示すシーンタグの<time>タグは画像情報i101における時刻、<sean>タグはシーン変換テーブルi108に格納されるデータから選択されるシーンデータ、<name>タグは登場する人物の名前を表している。
(シーンタグの例)
<time>12:23:21</time>
<sean>共演</sean>
<atribute>
<name>Xさん</name>
<name>Yさん</name>
</atribute>
(シーンテキストの例)
「XさんとYさんの共演シーン」
また例えばシーン認識部190は、「海岸を背景にして、XさんとYさんがいます。」という言語情報i105から、以下の様なシーンタグやシーンテキストを生成する。
(シーンタグの例)
<time>11:24:31</time>
<sean>デート</sean>
<atribute>
<name>Xさん</name>
<name>Yさん</name>
</atribute>
(シーンテキストの例)
「XさんとYさんのデートシーン」
また例えばシーン認識部190は、「Xさんの前に自動車のハンドルがあります。」という言語情報i105から、以下の様なシーンタグやシーンテキストを生成する。
(シーンタグの例)
<time>12:23:21</time>
<sean>運転</sean>
<atribute>
<name>Xさん</name>
</atribute>
(シーンテキストの例)
「Xさんの運転シーン」
同様に、例えばシーン認識部190は、唇と唇が重なっている画像であればキスシーン、車と車が重なっている画像であれば自動車事故のシーン、山の上から煙が出ている画像であれば噴火シーンを意味するシーンタグやシーンテキストを生成することが出来る。また例えばシーン認識部190は、画像情報i101がクイズ番組のワンシーンであり、赤い丸と青い四角が上下に動く画像であれば、特定のコーナーを意味するシーンタグやシーンテキストを生成することが出来る。
シーン認識部190は、画像情報i101にクローズドキャプションが含まれていれば、クローズドキャプションのデータを用いてもよい。クローズドキャプションのデータを用いることで、シーン認識部190は、シーン認識の精度を上げることが出来る。
シーン認識部190は、言語情報i105を用いてこのようにシーン情報i107を画像情報i101のすべての区間に渡って構築することが出来る。そしてシーン認識部190が構築したシーン情報i107は、画像情報i101に対する様々な処理に適用され得る。例えば、画像処理装置100は、シーン認識部190が構築したシーン情報i107によって、シーンタグの切り替わりをシーンチェンジと判断して、画像情報i101のサムネイルの作成が可能となる。また例えば、画像処理装置100は、同一のシーンが続き、シーンチェンジが行われない間をシーン区間とすることが可能となる。また例えば、画像処理装置100は、登場人物が変わらない場合はシーンチェンジが発生してないと判断することが可能となる。また例えば、画像処理装置100は、コマーシャル検出と組み合わせ、コマーシャルを挟んでも同一シーンと判断される場合はシーンの継承を表すタグを付与することが可能となる。もちろん画像処理装置100は、一般的な画像処理によるシーンチェンジ処理と、シーン認識部190が構築したシーン情報i107を用いたシーンチェンジ処理とを複合的に用いてもよい。
このように、本開示の一実施形態に係る画像処理装置100は、画像情報i101を言語情報i105に変換することで、言語情報i105を用いた更なる画像処理を可能にする。なお、上述したインデックス生成部170、画像検索部180、シーン認識部190は、言語情報i105を参照できるものであれば、画像処理装置100とは別の装置に設けられることも可能である。
<2.ハードウェア構成例>
次に、図20を参照して、本開示の一実施形態にかかる画像処理装置100のハードウェア構成について説明する。図20は、本開示の実施形態にかかる画像処理装置100のハードウェア構成例を示すブロック図である。上記の各アルゴリズムは、例えば、図20に示す情報処理装置のハードウェア構成を用いて実行することが可能である。つまり、当該各アルゴリズムの処理は、コンピュータプログラムを用いて図20に示すハードウェアを制御することにより実現される。なお、このハードウェアの形態は任意であり、例えば、パーソナルコンピュータ、携帯電話、PHS、PDA等の携帯情報端末、ゲーム機、接触式又は非接触式のICチップ、接触式又は非接触式のICカード、又は種々の情報家電がこれに含まれる。但し、上記のPHSは、Personal Handy−phone Systemの略である。また、上記のPDAは、Personal Digital Assistantの略である。
図20に示すように、このハードウェアは、主に、CPU902と、ROM904と、RAM906と、ホストバス908と、ブリッジ910と、を有する。さらに、このハードウェアは、外部バス912と、インターフェース914と、入力部916と、出力部918と、記憶部920と、ドライブ922と、接続ポート924と、通信部926と、を有する。但し、上記のCPUは、Central Processing Unitの略である。また、上記のROMは、Read Only Memoryの略である。そして、上記のRAMは、Random Access Memoryの略である。
CPU902は、例えば、演算処理装置又は制御装置として機能し、ROM904、RAM906、記憶部920、又はリムーバブル記録媒体928に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。ROM904は、CPU902に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM906には、例えば、CPU902に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
これらの構成要素は、例えば、高速なデータ伝送が可能なホストバス908を介して相互に接続される。一方、ホストバス908は、例えば、ブリッジ910を介して比較的データ伝送速度が低速な外部バス912に接続される。また、入力部916としては、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力部916としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。
出力部918としては、例えば、CRT、LCD、PDP、又はELD等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。但し、上記のCRTは、Cathode Ray Tubeの略である。また、上記のLCDは、Liquid Crystal Displayの略である。そして、上記のPDPは、Plasma DisplayPanelの略である。さらに、上記のELDは、Electro−Luminescence Displayの略である。
記憶部920は、各種のデータを格納するための装置である。記憶部920としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。但し、上記のHDDは、Hard Disk Driveの略である。
ドライブ922は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体928に記録された情報を読み出し、又はリムーバブル記録媒体928に情報を書き込む装置である。リムーバブル記録媒体928は、例えば、DVDメディア、Blu−rayメディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体928は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。但し、上記のICは、Integrated Circuitの略である。
接続ポート924は、例えば、USBポート、IEEE1394ポート、SCSI、RS−232Cポート、又は光オーディオ端子等のような外部接続機器930を接続するためのポートである。外部接続機器930は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。但し、上記のUSBは、Universal Serial Busの略である。また、上記のSCSIは、Small Computer System Interfaceの略である。
通信部926は、ネットワーク932に接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB用の通信カード、光通信用のルータ、ADSL用のルータ、又は接触又は非接触通信用のデバイス等である。また、通信部926に接続されるネットワーク932は、有線又は無線により接続されたネットワークにより構成され、例えば、インターネット、家庭内LAN、赤外線通信、可視光通信、放送、又は衛星通信等である。但し、上記のLANは、Local Area Networkの略である。また、上記のWUSBは、Wireless USBの略である。そして、上記のADSLは、Asymmetric Digital Subscriber Lineの略である。
以上、画像処理装置100のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更されうる。
<3.まとめ>
以上説明したように本開示の一実施形態によれば、画像情報に含まれる物体を認識し、その物体の認識結果を用いて画像情報から言語情報を生成する画像処理装置100が生成される。本開示の一実施形態に係る画像処理装置100は、画像情報に含まれる物体を認識して、「画面の右下」や「画面の中央やや右上」などの言語的な表現に位置を表現したり、「赤い自動車のすぐ右隣」や「赤い自動車の手前」、「赤い自動車からかなり右側」、「テーブルの上」など対象物と目標物の位置関係を言語で表現したりすることが可能になる。
本開示の一実施形態に係る画像処理装置100は、視力の弱い人や目の不自由な人の行動支援にも有効である。例えば、このような人にカメラを装着させて前方を撮像させて画像情報を得て、道を歩いているときに「左から車が来ます」という注意を提示するとか、「テーブルの上にリモコンがあります」というガイダンス情報を提示することも可能である。
本開示の一実施形態に係る画像処理装置100は医療画像の解析にも用いることが出来る。例えば画像情報として内視鏡やレントゲン等で体内を撮像した画像を画像処理装置100へ入力する場合、本開示の一実施形態に係る画像処理装置100による画像処理によって、例えば「胃の入り口の右上方に癌が認められる」であるとか「左肺の下部に白い炎症部分がある」などの診断情報を言語情報として得ることが出来る。従って本開示の一実施形態に係る画像処理装置100は、物体認識により胃や肺等の臓器が認識された後に、臓器中の患部の位置の特定が容易に行える。また本開示の一実施形態に係る画像処理装置100は、画像情報から得られる言語情報を、画像認識の学習の際の付加情報とすることにより、病理画像認識の精度を向上させることが可能である。
また本開示の一実施形態に係る画像処理装置100は、カーナビゲーションやウェアラブルコンピュータなどのディスプレイを注視することが難しい環境下での画像からの情報提供に効果が大きい。また本開示の一実施形態に係る画像処理装置100は、視力の弱い人や目の不自由な人が、画像情報のイメージをつかむのに有効である。また本開示の一実施形態に係る画像処理装置100は、医療の分野での画像解析や病理診断の補助としても有効である。
本明細書の各装置が実行する処理における各ステップは、必ずしもシーケンス図またはフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、各装置が実行する処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。
また、各装置に内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上述した各装置の構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供されることが可能である。また、機能ブロック図で示したそれぞれの機能ブロックをハードウェアで構成することで、一連の処理をハードウェアで実現することもできる。
また本開示の一実施形態に係る画像処理装置100は、画像処理装置100の処理の結果として表示される画像を表示するディスプレイを備える装置とは別の装置(たとえばインターネット等のネットワークを介してディスプレイを備える装置と接続されるサーバ装置)として実施されてもよいし、サーバ装置から情報を受ける端末装置で実施されてもよい。また本開示の一実施形態に係る画像処理装置100の構成は、単独の装置で実現されてもよく、複数の装置が連携するシステムで実現されても良い。複数の装置が連携するシステムには、例えば複数のサーバ装置の組み合わせ、サーバ装置と端末装置との組み合わせ等が含まれ得る。
なお、上記実施形態で示したユーザインタフェースやアプリケーションを実現するソフトウェアは、インターネット等のネットワークを介して使用するウェブアプリケーションとして実現されてもよい。ウェブアプリケーションは、例えば、HTML(HyperText Markup Language)、SGML(Standard Generalized Markup Language)、XML(Extensible Markup Language)などのマークアップ言語により実現されてもよい。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
例えば言語生成部130は、言語情報の生成に際して画像情報i101に関連付けられている情報を用いても良い。言語生成部130は、画像情報i101に関連付けられている情報として、例えば画像情報i101に含まれるメタデータを用いても良い。画像情報i101に含まれるメタデータには、例えば、撮影日時や撮影位置の情報などが含まれ得る。言語生成部130は、画像情報i101に含まれるメタデータを用いることで、より情報量の多い言語情報を生成することが出来る。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
画像に含まれる所定の物体に関連する情報である物体情報を取得する物体情報取得部と、
前記物体情報取得部が取得した前記物体情報を用いて前記画像に含まれている前記物体の状態を表す文章を生成する文章生成部と、
を備える、情報処理装置。
(2)
前記物体情報は、前記画像を解析することにより得られる情報である、前記(1)に記載の情報処理装置。
(3)
前記画像に基づいて前記物体情報を生成する物体情報生成部を備え、
前記物体情報生成部は、前記画像を所定数に分割し、該分割後の各領域に関する表現を用いて前記物体情報を生成する、前記(2)に記載の情報処理装置。
(4)
前記物体情報生成部は、分割後の前記画像をさらに所定数に分割し、再分割後の各領域に関する表現を用いて前記物体情報を生成する、前記(3)に記載の情報処理装置。
(5)
前記物体情報生成部は、前記物体の重心が分割後の領域の中心になるまで分割を繰り返す、前記(4)に記載の情報処理装置。
(6)
前記文章は、前記物体情報に基づく程度を表す副詞を含む、前記(1)〜(5)のいずれかに記載の情報処理装置。
(7)
前記文章は、前記物体情報に基づく前記画像に含まれる複数の物体間の相対的な位置関係を表す表現を含む、前記(2)に記載の情報処理装置。
(8)
前記文章生成部は、前記複数の物体の内、前記画像中で占める面積が最も大きい物体を基準として、前記複数の物体間の相対的な位置関係を表す表現を生成する、前記(7)に記載の情報処理装置。
(9)
前記文章生成部は、前記複数の物体の内、最も前記画像の中心に近い物体を基準として、前記複数の物体間の相対的な位置関係を表す表現を生成する、前記(7)に記載の情報処理装置。
(10)
前記文章生成部は、前記複数の物体の内、最も輝度が高い物体を基準として、前記複数の物体間の相対的な位置関係を表す表現を生成する、前記(7)に記載の情報処理装置。
(11)
前記文章生成部は、前記複数の物体の内、最も彩度が高い物体を基準として、前記複数の物体間の相対的な位置関係を表す表現を生成する、前記(7)に記載の情報処理装置。
(12)
前記文章は、前記物体情報に基づく前記複数の物体の重なりの関係を表す表現を含む、前記(7)〜(11)のいずれかに記載の情報処理装置。
(13)
前記文章は、程度を表す副詞が付与された前記複数の物体の重なりの関係を表す表現を含む、前記(12)に記載の情報処理装置。
(14)
前記文章は、前記物体の名称を含む、前記(7)〜(13)のいずれかに記載の情報処理装置。
(15)
前記文章は、前記物体の色を表す表現を含む、前記(7)〜(14)のいずれかに記載の情報処理装置。
(16)
前記文章生成部は、前記画像に含まれているメタデータを用いて文章を生成する、前記(1)〜(15)のいずれかに記載の情報処理装置。
(17)
前記文章生成部が生成した前記文章のインデックスを生成するインデックス生成部をさらに備える、前記(1)〜(16)のいずれかに記載の情報処理装置。
(18)
前記文章生成部が生成した前記文章を用いて前記画像のシーンを認識するシーン認識部をさらに備える、前記(1)〜(17)のいずれかに記載の情報処理装置。
(19)
画像に含まれる所定の物体に関連する情報である物体情報を取得することと、
取得した前記物体情報を用いて前記画像に含まれている前記物体の状態を表す文章を生成することと、
を含む、情報処理方法。
(20)
コンピュータに、
画像に含まれる所定の物体に関連する情報である物体情報を取得することと、
取得した前記物体情報を用いて前記画像に含まれている前記物体の状態を表す文章を生成することと、
を実行させる、コンピュータプログラム。
100 画像処理装置
110 画像処理部
111 物体認識部
112 画像認識領域設定部
113 物体位置情報抽出部
120 画像位置言語情報変換部
130 言語生成部
140 輪郭情報処理部
150 RGB色名変換部
160 背景処理部
170 インデックス生成部
180 画像検索部
190 シーン認識部

Claims (20)

  1. 画像に含まれる所定の物体に関連する情報である物体情報を取得する物体情報取得部と、
    前記物体情報取得部が取得した前記物体情報を用いて前記画像に含まれている前記物体の状態を表す文章を生成する文章生成部と、
    を備える、情報処理装置。
  2. 前記物体情報は、前記画像を解析することにより得られる情報である、請求項1に記載の情報処理装置。
  3. 前記文章は、前記物体情報に基づく、前記画像に含まれる複数の物体間の相対的な関係を表す表現を含む、請求項2に記載の情報処理装置。
  4. 前記文章は、前記物体情報に基づく、前記画像に含まれる複数の物体間の相対的な位置関係を表す表現を含む、請求項3に記載の情報処理装置。
  5. 前記文章生成部は、前記画像から得られる情報に基づき選択される、前記複数の物体のうち一つの物体を基準として前記複数の物体間の相対的な位置関係を表す表現を生成する、請求項4に記載の情報処理装置。
  6. 前記文章生成部は、前記複数の物体の内、前記画像中で占める面積が最も大きい物体を基準として、前記複数の物体間の相対的な位置関係を表す表現を生成する、請求項5に記載の情報処理装置。
  7. 前記文章生成部は、前記複数の物体の内、最も前記画像の中心に近い物体を基準として、前記複数の物体間の相対的な位置関係を表す表現を生成する、請求項5に記載の情報処理装置。
  8. 前記文章生成部は、前記複数の物体の内、最も輝度が高い物体を基準として、前記複数の物体間の相対的な位置関係を表す表現を生成する、請求項5に記載の情報処理装置。
  9. 前記文章は、前記物体情報に基づく程度を表す副詞を含む、請求項2に記載の情報処理装置。
  10. 前記文章は、前記物体情報に基づく前記複数の物体の重なりの関係を表す表現を含む、請求項3に記載の情報処理装置。
  11. 前記文章は、前記物体の名称を含む、請求項3に記載の情報処理装置。
  12. 前記文章は、前記物体の色を表す表現を含む、請求項3に記載の情報処理装置。
  13. 前記文章生成部は、前記画像に含まれているメタデータを用いて文章を生成する、請求項1に記載の情報処理装置。
  14. 前記画像に基づいて前記物体情報を生成する物体情報生成部を備え、
    前記物体情報生成部は、前記画像を所定数に分割し、該分割後の各領域に関する表現を用いて前記物体情報を生成する、請求項2に記載の情報処理装置。
  15. 前記物体情報生成部は、分割後の前記画像をさらに所定数に分割し、再分割後の各領域に関する表現を用いて前記物体情報を生成する、請求項14に記載の情報処理装置。
  16. 前記物体情報生成部は、前記物体の重心が分割後の領域の中心になるまで分割を繰り返す、請求項15に記載の情報処理装置。
  17. 前記文章生成部が生成した前記文章のインデックスを生成するインデックス生成部をさらに備える、請求項1に記載の情報処理装置。
  18. 前記文章生成部が生成した前記文章を用いて前記画像のシーンを認識するシーン認識部をさらに備える、請求項1に記載の情報処理装置。
  19. 画像に含まれる所定の物体に関連する情報である物体情報を取得することと、
    取得した前記物体情報を用いて前記画像に含まれている前記物体の状態を表す文章を生成することと、
    を含む、情報処理方法。
  20. コンピュータに、
    画像に含まれる所定の物体に関連する情報である物体情報を取得することと、
    取得した前記物体情報を用いて前記画像に含まれている前記物体の状態を表す文章を生成することと、
    を実行させる、コンピュータプログラム。
JP2014058847A 2014-03-20 2014-03-20 情報処理装置、情報処理方法及びコンピュータプログラム Pending JP2015184798A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014058847A JP2015184798A (ja) 2014-03-20 2014-03-20 情報処理装置、情報処理方法及びコンピュータプログラム
PCT/JP2015/056992 WO2015141523A1 (ja) 2014-03-20 2015-03-10 情報処理装置、情報処理方法及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014058847A JP2015184798A (ja) 2014-03-20 2014-03-20 情報処理装置、情報処理方法及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2015184798A true JP2015184798A (ja) 2015-10-22

Family

ID=54144494

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014058847A Pending JP2015184798A (ja) 2014-03-20 2014-03-20 情報処理装置、情報処理方法及びコンピュータプログラム

Country Status (2)

Country Link
JP (1) JP2015184798A (ja)
WO (1) WO2015141523A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019021285A (ja) * 2017-03-17 2019-02-07 国立大学法人電気通信大学 情報処理システム、情報処理方法及びプログラム
JP2021136022A (ja) * 2020-02-27 2021-09-13 本田技研工業株式会社 交差点シナリオ取得を実行するためのシステム及びその方法
US11741723B2 (en) 2020-02-27 2023-08-29 Honda Motor Co., Ltd. System for performing intersection scenario retrieval and method thereof
JP7519506B1 (ja) 2023-06-13 2024-07-19 ソフトバンク株式会社 データ処理装置及びプログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275110B (zh) * 2020-01-20 2023-06-09 北京百度网讯科技有限公司 图像描述的方法、装置、电子设备及存储介质
CN120046118B (zh) * 2025-04-23 2025-09-02 江苏时代新能源科技有限公司 极耳焊接检测方法、设备、存储介质及程序产品

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000315214A (ja) * 1999-04-30 2000-11-14 Sony Corp 文章検索用インデックス作成方法及びその装置
JP2006203574A (ja) * 2005-01-20 2006-08-03 Matsushita Electric Ind Co Ltd 画像表示装置
JP2007199908A (ja) * 2006-01-25 2007-08-09 Fujifilm Corp 顔文字入力装置
JP2011070276A (ja) * 2009-09-24 2011-04-07 Seiko Epson Corp 画像処理装置
JP2011076364A (ja) * 2009-09-30 2011-04-14 Oki Electric Industry Co Ltd 検索結果調整装置及び検索結果調整方法
JP2013101450A (ja) * 2011-11-08 2013-05-23 Sony Corp 情報処理装置及び方法、並びにプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019021285A (ja) * 2017-03-17 2019-02-07 国立大学法人電気通信大学 情報処理システム、情報処理方法及びプログラム
JP7170299B2 (ja) 2017-03-17 2022-11-14 国立大学法人電気通信大学 情報処理システム、情報処理方法及びプログラム
JP2021136022A (ja) * 2020-02-27 2021-09-13 本田技研工業株式会社 交差点シナリオ取得を実行するためのシステム及びその方法
JP7050974B2 (ja) 2020-02-27 2022-04-08 本田技研工業株式会社 交差点シナリオ取得を実行するためのシステム及びその方法
US11741723B2 (en) 2020-02-27 2023-08-29 Honda Motor Co., Ltd. System for performing intersection scenario retrieval and method thereof
JP7519506B1 (ja) 2023-06-13 2024-07-19 ソフトバンク株式会社 データ処理装置及びプログラム
WO2024257656A1 (ja) * 2023-06-13 2024-12-19 ソフトバンク株式会社 データ処理装置及びプログラム

Also Published As

Publication number Publication date
WO2015141523A1 (ja) 2015-09-24

Similar Documents

Publication Publication Date Title
US11397462B2 (en) Real-time human-machine collaboration using big data driven augmented reality technologies
CN110446063B (zh) 视频封面的生成方法、装置及电子设备
RU2688271C2 (ru) Поиск изображений на естественном языке
US10474426B2 (en) Information processing device, information processing method, and computer program
CN108874126B (zh) 基于虚拟现实设备的交互方法及系统
WO2015141523A1 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
Mahmoud et al. 3D corpus of spontaneous complex mental states
CN110598576A (zh) 一种手语交互方法、装置及计算机介质
CN106463119A (zh) 用于支持改进语音识别的对视觉内容的修改
US11640700B2 (en) Methods and systems for rendering virtual objects in user-defined spatial boundary in extended reality environment
CN111009028A (zh) 虚拟脸部模型的表情拟真系统及方法
CN115130456B (zh) 语句解析、匹配模型的训练方法、装置、设备及存储介质
CN114241379B (zh) 一种乘客异常行为识别方法、装置、设备及乘客监控系统
JP6906273B2 (ja) 映像データから人の骨格位置の変位の軌跡を描写するプログラム、装置及び方法
Sabyrov et al. Towards Real-time Sign Language Interpreting Robot: Evaluation of Non-manual Components on Recognition Accuracy.
Li et al. 3D sketch-based 3D model retrieval
KR102792918B1 (ko) 전자 장치 및 그 제어 방법
Ghafoor et al. Improving social interaction of the visually impaired individuals through conversational assistive technology
CN114661953B (zh) 视频描述生成方法、装置、设备以及存储介质
CN114708443B (zh) 截图处理方法及装置、电子设备和计算机可读介质
WO2020188924A1 (ja) 情報処理装置、検索方法、及びプログラムが格納された非一時的なコンピュータ可読媒体
Haider et al. A hand gesture recognition based communication system for mute people
Chen et al. A large vision-language model based environment perception system for visually impaired people
Pisnyi et al. AR Intelligent Real-time Method for Cultural Heritage Object Recognition
US11042274B2 (en) Extracting demonstrations from in-situ video content