[go: up one dir, main page]

JP5200015B2 - 画像認識装置及び画像認識方法 - Google Patents

画像認識装置及び画像認識方法 Download PDF

Info

Publication number
JP5200015B2
JP5200015B2 JP2009519161A JP2009519161A JP5200015B2 JP 5200015 B2 JP5200015 B2 JP 5200015B2 JP 2009519161 A JP2009519161 A JP 2009519161A JP 2009519161 A JP2009519161 A JP 2009519161A JP 5200015 B2 JP5200015 B2 JP 5200015B2
Authority
JP
Japan
Prior art keywords
image
unit
recognition
keyword
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009519161A
Other languages
English (en)
Other versions
JPWO2008152805A1 (ja
Inventor
敏志 近藤
亜旗 米田
耕 水野
高志 小椋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2009519161A priority Critical patent/JP5200015B2/ja
Publication of JPWO2008152805A1 publication Critical patent/JPWO2008152805A1/ja
Application granted granted Critical
Publication of JP5200015B2 publication Critical patent/JP5200015B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本発明は、静止画像や動画像中に撮影された物体(オブジェクト)を認識する画像認識装置に関するものである。
画像認識の中心技術として、テンプレートマッチングがある(例えば、非特許文献1)。テンプレートマッチングは、様々な特定形状の画像窓(テンプレート)を予め用意しておき、このテンプレートを認識対象画像に対して適用し、それに一致する物体が認識対象画像中に存在するか否かをテストする方法である。
つまり、図1に示されるように、従来の画像認識装置100は、認識対象画像を取得する画像入力部101と、様々なテンプレートを保持する、画像認識のための専用のデータベース(認識用データベース)103と、その認識用データベース中のテンプレートと画像入力部101が取得した認識対象画像とを照合することで認識処理を行う認識部102、その認識結果を出力する提示部104とを備える。このような従来の画像認識装置は、テンプレートマッチングによって、顔認識などについては成功している。
D.A.Forsyth and J.Ponce, "COMPUTER VISION: A Modern Approach", 22節、24.3節
しかしながら、テンプレートマッチングを用いた従来の画像認識装置は、次のような課題を有している。
第1の課題として、認識用データベース(予め用意したテンプレートの集合)の中に認識対象物体に対応する画像が保持されていないときには、画像認識ができないことである。逆の言い方をすると、認識用データベースに保持されている物体しか認識できない。
第2の課題として、第1の課題とも関連するが、認識したい対象物体の数が増加すると共に、認識用データベース中に保持すべきテンプレートの数も増加することである。これは認識用データベースの大きさそのものの問題よりも、画像認識方法を用いる画像認識システムがどのようにして認識用データベースを作成するかということが問題となる。
本発明は上記従来の課題を解決するものであり、認識対象物体の数が多くなっても、認識用データベースを作り直す必要がない、つまり、認識用データベースを管理する必要がない画像認識装置等を提供することを目的とする。
上記目的を達成するために、本発明に係る画像処理装置は、入力された画像が何を示す画像であるかを認識結果として出力する画像認識装置であって、認識対象画像を取得する画像入力部と、インターネットを介してアクセス可能なサーバ装置に置かれた、当該画像認識装置とは無関係に生成された自然発生的な複数の画像の中から、前記画像入力部で取得された認識対象画像と類似する1以上の類似画像を検索する類似画像検索部と、前記類似画像検索部で検索された類似画像に付随する情報の中から、前記認識対象画像の認識結果の候補となり得る複数のキーワードを抽出するキーワード抽出部と、前記キーワード抽出部で抽出された複数のキーワードを解析することにより、前記複数のキーワードのうち、前記認識対象画像の認識結果として尤もらしいものを少なくとも1つ特定するキーワード解析部と、前記キーワード解析部で特定されたキーワードを前記認識対象画像の認識結果として出力する提示部とを備える。これにより、従来の画像認識装置のように画像認識用の専用のデータベースを備えないので、認識対象物体の数が多くなっても、認識用データベースを作り直す必要がない、つまり、認識用データベースを管理する必要がなくなる。
ここで、前記類似画像検索部は、Exifファイルの画像を前記類似画像として検索し、前記キーワード抽出部は、前記Exifファイル中のヘッダ情報から、前記キーワードを抽出してもよいし、前記類似画像検索部は、前記サーバ装置に置かれたwebページから前記類似画像を検索し、前記キーワード抽出部は、前記webページ又は前記webページと関連づけられたwebページに含まれるタグ情報を手がかりにして、前記キーワードを抽出してもよいし、前記類似画像検索部は、前記サーバ装置に置かれたwebページから前記類似画像を検索し、前記キーワード抽出部は、前記webページ又は前記webページと関連づけられたwebページに含まれる周辺語句を前記キーワードとして抽出してもよい。
なお、画像認識の判断基準として、前記キーワード抽出部は、重複を許す複数のキーワードを抽出し、前記キーワード解析部は、前記キーワード抽出部で抽出された複数のキーワードのそれぞれについて、個数を解析し、個数の多いキーワードを認識結果として特定してもよいし、 前記類似画像検索部は、前記認識対象画像と類似する複数の画像を前記類似画像として検索するとともに、前記複数の類似画像のそれぞれについて、前記認識対象画像との類似度を算出し、前記キーワード解析部は、前記キーワード抽出部で抽出された複数のキーワードのそれぞれについて、付随していた画像に対して前記類似画像検索部で算出された類似度を対応させ、対応する類似度の高いキーワードを認識結果として特定してもよいし、前記キーワード抽出部は、重複を許す複数のキーワードを抽出し、前記キーワード解析部はさらに、前記キーワード抽出部で抽出された複数のキーワードのそれぞれについて、個数を解析し、個数が多く、かつ、前記類似度の高いキーワードを認識結果として特定してもよい。
また、認識結果の表示として、前記キーワード解析部は、前記個数又は前記類似度の大きい複数個のキーワードを前記認識結果として特定し、前記提示部は、前記キーワード解析部で特定された複数のキーワードを、前記個数又は前記類似度の大きい順に、表示出力してもよい。
なお、さらに、前記画像入力部で取得された認識対象画像のうち、認識対象とすべき領域の指定をユーザから取得する画像指定部を備え、前記類似画像検索部は、前記画像指定部で取得された領域に含まれる画像と類似する画像を検索するのが好ましい。これにより、認識対象を絞り込むことができ、認識対象物に対するノイズ(認識不要な箇所)が削減され、高精度な画像認識が実現される。
また、さらに、複数の画像のテンプレートについて、各画像のテンプレートが属するカテゴリーを対応づけた情報を記憶する分類データベースと、前記画像入力部で取得された認識対象画像と前記分類データベースに記憶されている画像のテンプレートとを照合することにより、前記認識対象画像がいかなるカテゴリーに属するかを特定する簡易分類部とを備え、前記類似画像検索部は、前記簡易分類部による分類結果を検索時のキーワードとして利用することにより、前記認識対象画像と類似する画像であり、かつ、前記分類結果のカテゴリーに属する画像を検索するのが好ましい。これにより、認識対象画像だけで類似画像を検索する場合に比べて、カテゴリー情報が補助情報として類似画像の検索時に利用されるので、類似画像の検索精度が向上されたり、検索時間が短縮化されたりするという効果が奏される。
また、さらに、認識対象画像となり得る画像に付随する複数の付随情報のそれぞれについて、当該付随情報の詳細な情報を対応づけて記憶する詳細情報データベースと、前記画像入力部で取得された認識対象画像に付随する付随情報を取得し、取得した付随情報と前記詳細情報データベースに登録された付随情報とを照合することにより、前記画像入力部で取得された認識対象画像に付随する付随情報に対応する詳細情報を取得する前処理部とを備え、前記類似画像検索部は、前記前処理部によって取得された詳細情報を検索時のキーワードとして利用することにより、前記認識対象画像と類似し、かつ、前記詳細情報と関連する画像を検索するのが好ましい。これにより、認識対象画像だけで類似画像を検索する場合に比べて、画像以外の情報が補助情報として類似画像の検索時に利用されるので、類似画像の検索精度が向上されたり、検索時間が短縮化されたりするという効果が奏される。
なお、本発明は、このような画像認識装置として実現することができるだけでなく、このような画像認識装置が備える特徴的な手段をステップとする方法として実現したり、それらのステップをコンピュータに実行させるプログラムとして実現したり、そのようなプログラムを格納したCD−ROM等のコンピュータ読み取り可能な記録媒体として実現することもできる。
本発明によれば、従来の画像認識装置のように画像認識用の専用のデータベースを備える必要がなくなるので、認識対象物体の数が多くなっても、認識用データベースを作り直す必要がない、つまり、認識用データベースを管理する必要がなくなる。
また、従来の画像認識装置のようにデータベース中に認識対象物体に対応する画像が保持されていないために認識できないといった可能性は極めて低くなり、高い確率であらゆる種類の画像の認識が可能となる。
よって、本発明は、保守の手間がかからず、装置による学習の必要もなく、かつ、認識対象の種類が限定されることなく、高い確率で未知の画像が認識され、撮像機能を備える携帯情報機器が普及してきた今日における実用的価値は極めて高い。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図2は、本発明の画像認識装置の構成を示す機能ブロック図である。この画像認識装置200は、入力された画像が何を示す画像であるかを認識結果として出力する装置であって、画像入力部201、類似画像検索部202、キーワード抽出部203、キーワード解析部204、提示部205から構成され、例えば、パーソナルコンピュータ及びそこで実行されるプログラム等によって実現される。
画像入力部201は、認識対象画像を取得する処理部であり、例えば、ユーザの指定に従って、装置が備えるローカルディスク(図示されていない)から、デジタルカメラ等によって撮影され格納されている静止画や動画等の画像ファイルを読み出す。
類似画像検索部202は、インターネットを介してアクセス可能なサーバ装置206に置かれた、この画像認識装置200とは無関係に生成された自然発生的な複数の画像の中から、画像入力部201で取得された認識対象画像と類似する1以上の画像を類似画像として検索する処理部である。なお、「自然発生的な画像」とは、この画像認識装置200とは無関係に生成された画像であり、インターネット上のWebサイトに置かれて公開されているあらゆる種類の画像を含む。また、「画像認識装置200とは無関係に生成された画像」とは、画像認識を意識せずに作成された一般的な画像を含む意味であり、画像認識を意識して作成された画像が含まれていてもよい。また、検索対象のサーバ装置は、任意なサーバ装置でよく、1台であっても、複数台であってもよいし、画像専用のwebサイトであってもよいし、そうでない一般のwebサイトであってもよい。
具体的には、この類似画像検索部202は、例えば、Exifファイルの画像を類似画像として検索したり、サーバ装置206に置かれたwebページから類似画像を検索したりする。なお、この類似画像検索部202は、認識対象画像と類似する複数の画像を類似画像として検索した場合には、それら複数の類似画像のそれぞれについて、認識対象画像との類似度を算出する。
キーワード抽出部203は、類似画像検索部202で検索された類似画像に付随する情報の中から、認識対象画像の認識結果の候補となり得る複数のキーワードを抽出する処理部である。ここで、キーワードとは、地理的名称や著名人の名前等の固有名詞や普通名詞等を含む単語、句、節、文等である。
具体的には、このキーワード抽出部203は、例えば、Exifファイル中のヘッダ情報からキーワードを抽出したり、webページ又はwebページと関連づけられたwebページに含まれるタグ情報を手がかりにしてキーワードを抽出したり、webページ又はwebページとリンク等によって関連づけられた他のwebページに含まれる周辺語句をキーワードとして抽出したりする。このとき、このキーワード抽出部203は、類似画像検索部202で検索された複数の類似画像から、重複を許す複数のキーワードを抽出することもある。
キーワード解析部204は、キーワード抽出部203で抽出された複数のキーワードを解析することにより、複数のキーワードのうち、認識対象画像の認識結果として尤もらしいものを少なくとも1つ特定する処理部である。
具体的には、このキーワード解析部204は、例えば、キーワード抽出部203で抽出された複数のキーワードのそれぞれについて、(1)個数(つまり、出現頻度)を解析し、個数の多いキーワードを認識結果として特定したり、(2)付随していた画像に対して類似画像検索部202で算出された類似度を対応させ、対応する類似度の高いキーワードを認識結果として特定したり、(3)個数が多く、かつ、類似度の高いキーワードを認識結果として特定したりする。なお、これらの認識結果のアルゴリズムについては、ユーザが事前に選択(設定)できる。
提示部205は、キーワード解析部204で特定されたキーワードを認識対象画像の認識結果として出力する処理部及びディスプレイ等である。ここで、もし、キーワード解析部204が、個数又は類似度の大きい複数個のキーワードを認識結果として特定した場合には、この提示部205は、キーワード解析部204で特定された複数のキーワードを、例えば、個数又は類似度の大きい順にソートして表示出力する。
次に、以上のように構成された本実施の形態における画像認識装置200の動作について説明する。
図3は、本実施の形態における画像認識装置200の動作手順を示すフローチャートである。図4は、画像認識装置200の動作を説明するための図である。
まず、画像入力部201は、図4(a)に示される画像10のような認識対象画像を取得する(S101)。ここで、画像入力部201は、カメラ等の撮像機器であってもよいし、予め認識対象画像が記録されている記録媒体であってもよい。画像入力部201が撮像機器である場合には、画像入力部201は、認識対象物体をその場で撮影し、認識対象物体を認識対象画像として取り込むことになる。また、画像入力部201が記録媒体である場合には、画像入力部201は、予め記録された画像からユーザが画像ファイルを指定することにより、認識対象画像を取得する。画像入力部201が取得した認識対象画像は、類似画像検索部202に出力される。
続いて、類似画像検索部202は、図4(b)に示される類似画像11aのように、認識対象画像の類似画像をインターネット上のサーバ装置206から取得する(S102)。
図5は、このステップS102の詳細なフローチャートである。類似画像検索部202は、インターネット上のサーバ装置206から画像を取得(つまり、ダウンロード)する(S301)。なお、サーバ装置206は、画像を共有するサイトのホストサーバや、通常のwebサーバ等である。ここで、取得したダウンロード画像の数をN(1以上)とし、各ダウンロード画像は1〜Nの番号を付与して以下の説明をする。
類似画像検索部202は、N枚のダウンロード画像に対して順に処理を行うため、画像番号を示すカウンタnの値を1にセットする(S302)。なお、Nとしては、予め定められた固定値であってもよいし、初期値を設定し、その後、後述する類似度と閾値との判断の結果を反映して増加させていく(例えば、類似度が閾値を超える類似画像の総数が予め定められた枚数となるような)可変値であってもよい。
以下、N枚のダウンロード画像に対して、ステップS303〜S305の処理が順に施される。つまり、類似画像検索部202は、認識対象画像と番号nのダウンロード画像との類似度を計算する(S303)。類似度の例としては、テンプレートマッチングにおける画像間の距離を用いる。ここでは、2つの画像が似ているほど類似度は高い値になるものとする。たとえば、2つの画像について、座標情報、輝度情報、色情報、エッジ情報、空間周波数情報等について複数の特徴量を算出し、それら複数の特徴量からなるベクトル間の距離を類似度とする。
また、認識対象画像とダウンロード画像との類似度を計算する場合には、それぞれの画像を部分画像にセグメンテーションした後、認識対象画像の部分画像とダウンロード画像の部分画像間の類似度を計算してもよい。このようにセグメンテーションをした場合には、各部分画像の組み合わせのうち、類似度が最大となる類似度を認識対象画像とダウンロード画像の類似度とすればよい。また、類似度の計算を終えた後は、その類似画像を保存してもよいし、破棄してもよい。
そして、類似画像検索部202は、類似度と所定の閾値を比較する(S304)。その結果、類似度が所定の閾値よりも大きい場合には(S304でYes)、類似画像検索部202は、画像番号nと類似度のペアをリストに保存する(S305)。一方、類似度が所定の閾値よりも小さい場合には(S304でNo)、ステップS305の処理をスキップし、ステップS306へと処理を移す。
S306では、類似画像検索部202は、画像番号nが総ダウンロード画像数Nに等しいか、すなわちすべてのダウンロード画像の処理を完了したかを判定する。その結果、nがNに等しくない場合には(S306でNo)、類似画像検索部202は、nを1だけ増加させた後(S307)、再び、類似度を計算する(S303)。一方、nがNに等しい場合には(S306でYes)、類似画像検索部202は、処理を完了する。以上のような類似画像検索部202による処理により、認識対象画像との類似度が所定の閾値以上となるダウンロード画像の番号とその類似度のペアを保持したリストが得られる。
続いて、図2に戻り、キーワード抽出部203は、図4(b)のキーワード11bのように、類似画像検索部202で得られたリストに番号が記載されているダウンロード画像に付随するキーワードを取得する(S103)。このキーワードとして、キーワード抽出部203は、Exif情報としてダウンロード画像に直接記述されているタグから得ることもできるし、ダウンロード画像が画像共有サイトから得たものであればその画像に付与されたタグとして得ることもできるし、webページ中でダウンロード画像が記載されていた位置の周囲の言葉から得ることもできる。また、html言語等で記載されたwebページのソースコードを解析することにより、ダウンロード画像が記載されている位置とその周囲に記載された語句を得ることができる。このようにして各ダウンロード画像から得られたキーワードは、キーワード解析部204に出力される。
ここで、キーワード抽出は、上記リストに記載された全画像に対して行ってもよいし、リストに記載された画像数が多い場合には、その中から選択した画像に対して行ってもよい。また、キーワードの抽出の方法(Exifファイルのヘッダかwebページのタグか等)については、1つ、あるいは、複数の方法を、ユーザが選択(あるいは、事前に設定)できる。
そして、キーワード解析部204は、入力されたキーワードに対してその頻度(出現頻度、つまり、個数)を解析する(S104)。そして、頻度に基づいて選択したキーワードを認識対象画像の認識結果として出力する。ここで、頻度に基づいてキーワードを選択する方法としては、頻度が最も高いキーワードを選択する方法等がある。また、選択するキーワードは一つとは限らず、複数のキーワードを選択してもよい。
最後に、提示部205は、図4(c)の表示例12に示されるように、キーワード解析部204において得られた認識結果をユーザに対して提示する(S105)。提示方法としては、ディスプレイに認識結果を文字情報として表示する方法や、音声合成により認識結果を読み上げてスピーカから再生する方法等がある。また、図6に示されるように、キーワード抽出部203によって抽出されたキーワードのうち、キーワード解析部204によって算出された頻度の多いものから一定個数のキーワードをソートして表示してもよい。
以上のように、本実施の形態における画像認識装置200によれば、当該画像認識装置200とは無関係に生成された自然発生的なインターネット上の画像群から認識対象画像に類似した画像群を選択し、画像群に付随するキーワードの頻度を解析することによって、あるキーワードを認識結果として選択する。ここで、インターネット上にはあらゆる物体を撮影した画像が存在する。よって、このような画像認識装置200によって、従来の画像認識方法のように専用の認識用データベース中に認識対象物体に対応する画像が保持されていないために認識できないといった可能性は極めて低くなる。また、本発明の画像認識装置によれば、独自(専用)のデータベースを作成することなく、数多くの種類の物体を認識することが可能となる。
なお、上記実施の形態では、認識対象画像の全体を対象として、画像認識をしたが、画像の一部だけを対象として画像認識をしてもよい。図7は、上記実施の形態の第1の変形例に係る画像認識装置400の構成を示す機能ブロック図である。本図に示されるように、本変形例に係る画像認識装置400は、図2に示される上記実施の形態における画像認識装置200に、画像指定部401を追加した構成を有している。画像指定部401以外の構成および処理内容は上記実施の形態とほぼ同様である。
画像指定部401には、画像入力部201から、認識対象物体が含まれた画像が入力される。画像指定部401は、図8の画像10中の点線枠10aに示されるように、画像入力部201から入力された画像10のうち、認識対象物体が写っている領域を特定する。このときの領域の特定は、例えば、ユーザからの指示により行われる。そして、画像指定部401は、指定された領域の画像を類似画像検索部202に対して出力する。なお、画像指定部401は、ユーザが指定した領域の画像をそのまま類似画像検索部202に出力してもよいし、ユーザが指定した領域内で画像の境界検出を行い、検出された境界内の画像のみを類似画像検索部202に出力してもよい。
このように、第1の変形例に係る画像認識装置400によれば、インターネット上の画像群から対象画像中のユーザ選択領域に類似した画像群を検索し、検索した画像群に付随するキーワードの頻度を解析することによって、あるキーワードを認識結果として選択する。よって、上記実施の形態で得られる効果に加えて、入力画像中のユーザ指定領域に写っている物体だけに絞って画像認識をするという効果も奏される。
また、上記実施の形態では、認識対象画像だけを手掛かりとして類似画像を検索したが、認識対象画像に加えて、認識対象画像の分類(カテゴリー)情報も手掛かりにして類似画像を検索してもよい。図9は、上記実施の形態の第2の変形例に係る画像認識装置500の構成を示す機能ブロック図である。本図に示されるように、本変形例に係る画像認識装置500は、図2に示される上記実施の形態における画像認識装置200に、簡易分類部501及び分類データベース502を追加した構成を有している。簡易分類部501及び分類データベース502以外の構成および処理内容は上記実施の形態とほぼ同様である。
簡易分類部501には、画像入力部201から、認識対象画像が入力される。簡易分類部501は、類似画像検索部202がインターネットから画像をダウンロードする前に、認識対象画像に対して簡易的な分類を実施する。これは、例えば、従来の画像認識方法のように、簡易分類部501にローカルな分類データベース502を保持し、その分類データベース502に含まれるテンプレートを参照することにより、認識対象画像を簡易的に分類する。分類データベース502は、例えば、図10に示されるように、「画像の特徴(空間周波数成分、輪郭形状、統計的特徴量、色分布等の特徴)」と「カテゴリー」との対応付けを登録したテーブルである。簡易分類部501は、認識対象画像の空間周波数成分等を解析し、その解析結果と一致する分類データベース502の「画像の特徴」を検索し、対応する「カテゴリー」を簡易分類結果として取得する。そして、簡易分類部501は、認識対象画像に加えて、その簡易分類結果も類似画像検索部202に出力する。
類似画像検索部202は、簡易分類部501から入力された簡易分類結果を利用して、インターネット上のサーバから画像を取得(ダウンロード)する。例えば、簡易分類結果をキーワードとして検索を実施し、検索の結果得られた画像を類似画像として、あるいは、簡易分類結果をキーワードとして検索して得られた画像のうち、認識対象画像に類似する画像を類似画像としてダウンロードする。
このように、第2の変形例に係る画像認識装置500によれば、インターネット上の画像群から、認識対象画像の簡易分類結果をキーワードとして類似する画像群を検索し、その画像群に付随するキーワードの頻度を解析することによって、あるキーワードを認識結果として選択する。よって、上記実施の形態で得られる効果に加えて、予め簡易的な分類を実施することにより、インターネットからダウンロードする画像の数が削減され、ダウンロード時間の短縮、処理量の削減、ダウンロード画像を保持するためのメモリ量の削減等の効果も奏される。
また、上記実施の形態では、キーワード抽出部203で抽出されたキーワードのうち、頻度の大きいものが認識結果と判断されたが、頻度の算出に際して、認識対象画像と類似画像との類似度で重みづけをしてもよい。図11(a)〜図11(c)は、このような認識対象画像と類似画像との類似度による重みづけを考慮して認識結果を決定する第3の変形例に係る画像認識装置の動作を説明する図である。なお、この第3の変形例に係る画像認識装置の構成は、基本的には、図2に示される上記実施の形態における画像認識装置200と同様である。以下、実施の形態と異なる機能を有する構成要素について説明する。
第3の変形例に係る画像認識装置では、図11(a)に示されるように、類似画像検索部202は、類似画像を検索したときに、認識対象画像と類似画像との類似度を算出しておく。そして、キーワード解析部204は、キーワード抽出部203が類似画像ごとにキーワードを抽出する度に、その類似画像の類似度を、抽出されたキーワードに対応づけて記憶しておく。たとえば、図11(a)に示される例では、類似度S1の類似画像I1に付随していたキーワードA、B、C、Dのそれぞれに類似度S1を対応づけ、類似度S2の類似画像I2に付随していたキーワードB、D、Eのそれぞれに類似度S2を対応づけ、・・・、類似度Snの類似画像Inに付随していたキーワードF、Hのそれぞれに類似度Snを対応づけて記憶する。
そして、キーワード解析部204は、図11(b)に示されるように、キーワード抽出部203で抽出されたキーワードのそれぞれについて、対応づけられた重み和ωi、あるいは、類似度を所定の関数(例えば、類似度の総和で正規化した重みを算出する関数f)に代入して得られる重みf(Si)の合計Σωiを計算することで、類似度を重みとするキーワード毎の重み和ωnを算出する。最後に、提示部205は、図11(c)に示されるように、認識結果として、重み和ωnの大きい順に、確度(重み和を0〜1の範囲の数値に正規化した値)と共に、キーワードを表示する。
このように、第3の変形例に係る画像認識装置によれば、抽出されたキーワードの頻度だけでなく、認識対象画像と類似画像との類似度で重みづけをした頻度の高いキーワードを認識結果とすることで、頻度だけで決定する手法に比べて、より高い精度で画像認識をすることができる。
なお、このような類似度による重みづけを考慮する際には、1つの類似画像に付随するキーワードの数が多い場合には、それらのキーワードに対する重みを小さくしてもよい。また、Exifファイルのヘッダ情報等に含まれるキーワードのように、類似画像に直接付随するキーワードについては、重みを大きくしたり、webページ等において類似画像の周辺にあるキーワードについては、類似画像から距離(例えば、表示画面上での距離)が近い程、重みを大きくしたりしてもよい。このように、類似画像とキーワードとの各種関係を、認識結果を判断する際の重みづけに反映することで、さらに画像認識の精度が向上される。
また、上記実施の形態及び変形例では、認識対象画像だけを手掛かりとして類似画像を検索したり、認識対象画像と認識対象画像から判明する情報(分類情報)を手掛かりにして類似画像を検索したりしたが、もし、認識対象画像に付随情報が付随している場合には、その付随情報、あるいは、その付随情報に関連する情報をキーワードとして類似画像を検索してもよい。
図12は、認識対象画像に付随する付随情報に関連する詳細情報をキーワードとして類似画像を検索する、第4の変形例に係る画像認識装置500の構成を示す機能ブロック図である。本図に示されるように、本変形例に係る画像認識装置600は、図2に示される上記実施の形態における画像認識装置200に、前処理部610及び詳細情報データベース620を追加した構成を有している。
詳細情報データベース620は、認識対象画像となり得る画像に付随する複数の付随情報のそれぞれについて、付随情報の詳細な情報を対応づけて記憶するデータベースである。たとえば、付随情報として、地理的な場所を示す情報(例えば、緯度及び経度)を格納し、詳細な情報として、その地理的な場所の近くに存在するランドマークを特定する情報(建物名、施設の種類など)を格納している建物データベース等である。
前処理部610は、画像入力部201で取得された認識対象画像に付随する付随情報を取得し、取得した付随情報と詳細情報データベース620に登録された付随情報とを照合することにより、画像入力部201で取得された認識対象画像に付随する付随情報に対応する詳細情報を取得する処理部である。
このように構成される第4の変形例に係る画像認識装置600の動作は、図12のステップS61〜S66に記載されている通りである。まず、前処理部610は、認識対象画像に付随する付随情報を取得する(S61)。たとえば、認識対象画像が撮影画像であり、Exifファイルに収納されている場合には、前処理部610は、そのExifファイルのヘッダ情報から、撮影場所(地理的な場所)を示す情報(緯度及び経度等)を取得する。そして、前処理部610は、取得した付随情報と詳細情報データベース620に登録された付随情報とを照合することにより(S62)、その付随情報に対応する詳細情報を取得する(S63)。たとえば、認識対象画像に付随していた撮影場所をキーワードにして詳細情報データベース620を検索することで、その撮影場所、あるいは、その近辺の建物名を取得する。
そして、類似画像検索部202は、インターネット上のサーバ装置206を対象に、前処理部610によって取得された詳細情報をキーワードとして検索することにより(S64)、認識対象画像と類似し、かつ、詳細情報と関連する類似画像及びそれに付随するキーワードを取得する(S65)。たとえば、建物名をキーワードとしてwwwから画像を検索し、それらの画像のうち、認識対象画像と類似する画像を類似画像として、付随するキーワードと共に取得する。
そして、キーワード解析部204は、実施の形態と同様にして、取得された複数のキーワードに対してその頻度を解析し、頻度の高いキーワードを認識結果として選択する(S66)。このとき、詳細情報データベース620から取得された詳細情報と一致する、あるいは、類似するキーワードについては、重みを大きくして認識結果を選択してもよい。最後に、選択された認識結果は、提示部205によって、ユーザに提示される。
このように、第4の変形例に係る画像認識装置600によれば、認識対象画像に付随する情報を利用して類似画像を検索するので、認識対象画像だけから類似画像を検索する場合に比べ、より類似度の高い画像を検索したり、類似画像の検索時間を短縮化したりすることができ、画像認識の認識精度と処理速度が向上される。
なお、この第4の変形例に係る画像認識装置600の動作例としては、撮影場所を手がかりに撮影画像に含まれる建物や名所の名前を詳細情報データベース620から取得する以外に、季節や時間帯等の付随情報を利用してもよい。このとき、植物や昆虫であれば、それが存在する季節や場所は限定されているので、それを画像認識時の知識として活用してもよい。たとえば、認識アルゴリズムとして、ベイズ推定を用いて複数のキーワードから尤もらしいものを選択するとし、いま、認識対象画像に撮影日時が付随している場合には、その撮影日時が属する季節や時間帯に出現する植物や昆虫については、ベイズ推定における事前確率を高い値にしておく。そして、複数のキーワードの中から、ベイズ推定における事後確率が最大となるキーワードを選択し、そのキーワードを認識結果として選択する。このように、認識対象画像に付随する情報を類似画像の検索に利用するだけでなく、認識時の知識(認識処理の補助情報)として利用することで、さらに認識精度を向上させることができる。
また、上記実施の形態では、提示部205は、認識結果だけを表示したが、認識対象画像に重畳させて認識結果を表示してもよい。このとき、提示部205は、認識対象画像中の認識対象となるオブジェクトの近辺に認識結果の文字列が位置するように、CG(Computer Graphics)技術等を利用して、認識対象画像と認識結果の文字列とを合成する。
たとえば、図13(a)に示されるように、認識結果として山の名前が得られた場合には、その名前を認識対象画像中の対応する山の近くに配置した合成画像を生成して表示したり、図13(b)に示されるように、認識結果として星座や星の名前が得られた場合には、その名前を認識対象画像中の対応する星座や星の近くに配置した合成画像を生成して表示したりする。これにより、認識対象画像と認識結果とが画像上で対応づけられ、ユーザは、容易に未知の認識結果を確認することができる。また、撮影画像から自動的に景観ラベリングが行われ、旅行先での未知の景観に対して、自動的に観光情報が入手される。なお、図13(b)に示されるように、認識対象画像中には存在しないが、画像認識結果から存在することが判明した星(本来見えないが、星座の位置関係から存在することが判明した星)を、CG技術等で、認識対象画像と合成して表示してもよい。
また、上記実施の形態及び変形例では、類似画像の検索時に使用する補助キーワードや、キーワードの解析(認識処理)時に使用する補助キーワードは、データベースを参照することによって自動生成されたが、ユーザが指定してもよい。たとえば、認識対象画像が属するカテゴリー(「花」、「木」、「虫」等)をユーザが指定してもよい。これにより、ユーザは、認識対象画像について、自分が入力した情報を手掛かりにして、更に詳細な情報(つまり、認識結果)を得ることができる。
たとえば、ユーザが、自分が撮影した画像が花であることを知っているが、その名前を知らない場合に、「花」を類似画像の検索時の補助キーワード、あるいは、キーワードの解析(認識処理)時における重みとして利用するように画像認識装置を実行させることで、「花」の名前を認識結果として取得することができ、画像認識装置を植物辞典として利用することができる。
なお、上記実施の形態及び変形例は、構成要素を任意に組み合わせることで、別の形態の画像認識装置を実現してもよい。たとえば、上記第1の変形例と第2の変形例2とを組み合わせることで、画像指定部401で認識対象領域を指定した後、指定された領域の画像に対して、簡易分類部501による分類を行い、類似画像検索部202による類似画像の検索をしてもよい。
また、上記各実施の形態や変形例における画像認識装置を、コンピュータで実行されるプログラムとして実現してもよい。そして、そのプログラムを、フレキシブルディスク等の記録媒体に記録するようにすることにより、上記各実施の形態で示した処理を、独立したコンピュータシステムにおいて簡単に実施することが可能となる。
図14(a)〜図14(c)は、上記各実施の形態の画像認識装置を、フレキシブルディスク等の記録媒体に記録されたプログラムを用いて、コンピュータシステムにより実現する場合の説明図である。
図14(b)は、フレキシブルディスクの正面からみた外観、断面構造、及びフレキシブルディスクを示し、図14(a)は、記録媒体本体であるフレキシブルディスクの物理フォーマットの例を示している。フレキシブルディスクFDはケースF内に内蔵され、該ディスクの表面には、同心円状に外周からは内周に向かって複数のトラックTrが形成され、各トラックは角度方向に16のセクタSeに分割されている。従って、上記プログラムを格納したフレキシブルディスクでは、上記フレキシブルディスクFD上に割り当てられた領域に、上記プログラムが記録されている。
また、図14(c)は、フレキシブルディスクFDに上記プログラムの記録再生を行うための構成を示す。画像認識方法を実現する上記プログラムをフレキシブルディスクFDに記録する場合は、コンピュータシステムCsから上記プログラムをフレキシブルディスクドライブを介して書き込む。また、フレキシブルディスク内のプログラムにより画像認識方法を実現する上記画像認識方法をコンピュータシステム中に構築する場合は、フレキシブルディスクドライブによりプログラムをフレキシブルディスクから読み出し、コンピュータシステムに転送する。
なお、上記説明では、記録媒体としてフレキシブルディスクを用いて説明を行ったが、光ディスクを用いても同様に行うことができる。また、記録媒体はこれに限らず、ICカード、ROMカセット等、プログラムを記録できるものであれば同様に実施することができる。
また、本発明に係る画像認識装置は、コンピュータ上で実現されるだけでなく、図15に示されるような各種電子機器ex111〜116に組み込まれる機能として実現することもできる。このとき、各種電子機器ex111〜116に付随する蓄積メディア(CD−ROM、フレキシブルディスク、ハードディスクなど)にプログラムとして格納されたり、LSIex117として実現されたりする。
各種電子機器ex111〜116は、基地局ex107〜ex110、電話網ex104及びインターネットサービスプロバイダex102を介して、インターネットex101上の多数のサーバex103を対象として、類似画像を検索し、画像認識を行うことができる。
図16は、上記実施の形態で説明した画像認識装置を備える携帯電話ex115の外観図である。携帯電話ex115は、基地局ex110との間で電波を送受信するためのアンテナex201、CCDカメラ等で映像や静止画を撮ることが可能なカメラ部ex203、カメラ部ex203で撮影した映像や、アンテナex201で受信した映像等を表示する液晶ディスプレイ等の表示部ex202、操作キーex204群から構成される本体部、音声出力をするためのスピーカ等の音声出力部ex208、音声入力をするためのマイク等の音声入力部ex205、撮影した動画もしくは静止画等を保存するための記録メディアex207、携帯電話ex115に記録メディアex207を装着可能とするためのスロット部ex206を有している。記録メディアex207はSDカード等のプラスチックケース内に電気的に書き換えや消去が可能な不揮発性メモリであるEEPROM(Electrically Erasable and Programmable Read Only Memory)の一種であるフラッシュメモリ素子を格納したものである。
このような携帯電話ex115の機能ブロックは、図17に示される通りである。携帯電話ex115では、表示部ex202及び操作キーex204を備えた本体部の各部を統括的に制御するようになされた主制御部ex311に対して、電源回路部ex310、操作入力制御部ex304、画像符号化部ex312、カメラインターフェース部ex303、LCD(Liquid Crystal Display)制御部ex302、画像復号化部ex309、多重分離部ex308、記録再生部ex307、変復調回路部ex306、画像認識部ex314及び音声処理部ex305が同期バスex313を介して互いに接続されている。
電源回路部ex310は、ユーザの操作により電源キーがオン状態にされると、バッテリパックから各部に対して電力を供給することによりカメラ付デジタル携帯電話ex115を動作可能な状態に起動する。
携帯電話ex115は、CPU、ROM及びRAM等から構成される主制御部ex311の制御に基づいて、音声通話モード時に音声入力部ex205で集音した音声信号を音声処理部ex305によってデジタル音声データに変換し、これを変復調回路部ex306でスペクトラム拡散処理し、送受信回路部ex301でデジタルアナログ変換処理及び周波数変換処理を施した後にアンテナex201を介して送信する。また携帯電話ex115は、音声通話モード時にアンテナex201で受信した受信信号を増幅して周波数変換処理及びアナログデジタル変換処理を施し、変復調回路部ex306でスペクトラム逆拡散処理し、音声処理部ex305によってアナログ音声信号に変換した後、これを音声出力部ex208を介して出力する。
さらに、データ通信モード時に電子メールを送信する場合、本体部の操作キーex204の操作によって入力された電子メールのテキストデータは操作入力制御部ex304を介して主制御部ex311に送出される。主制御部ex311は、テキストデータを変復調回路部ex306でスペクトラム拡散処理し、送受信回路部ex301でデジタルアナログ変換処理及び周波数変換処理を施した後にアンテナex201を介して基地局ex110へ送信する。
データ通信モード時に画像データを送信する場合、カメラ部ex203で撮像された画像データをカメラインターフェース部ex303を介して画像符号化部ex312に供給する。また、画像データを送信しない場合には、カメラ部ex203で撮像した画像データをカメラインターフェース部ex303及びLCD制御部ex302を介して表示部ex202に直接表示することも可能である。
画像符号化部ex312は、カメラ部ex203から供給された画像データを上記実施の形態で示した画像符号化装置に用いた符号化方法によって圧縮符号化することにより符号化画像データに変換し、これを多重分離部ex308に送出する。また、このとき同時に携帯電話ex115は、カメラ部ex203で撮像中に音声入力部ex205で集音した音声を音声処理部ex305を介してデジタルの音声データとして多重分離部ex308に送出する。
多重分離部ex308は、画像符号化部ex312から供給された符号化画像データと音声処理部ex305から供給された音声データとを所定の方式で多重化し、その結果得られる多重化データを変復調回路部ex306でスペクトラム拡散処理し、送受信回路部ex301でデジタルアナログ変換処理及び周波数変換処理を施した後にアンテナex201を介して送信する。
データ通信モード時にホームページ等にリンクされた動画像ファイルのデータを受信する場合、アンテナex201を介して基地局ex110から受信した受信信号を変復調回路部ex306でスペクトラム逆拡散処理し、その結果得られる多重化データを多重分離部ex308に送出する。
また、アンテナex201を介して受信された多重化データを復号化するには、多重分離部ex308は、多重化データを分離することにより画像データの符号化ビットストリームと音声データの符号化ビットストリームとに分け、同期バスex313を介して当該符号化画像データを画像復号化部ex309に供給すると共に当該音声データを音声処理部ex305に供給する。
次に、画像復号化部ex309は、画像データの符号化ビットストリームを上記実施の形態で示した符号化方法に対応した復号化方法で復号することにより再生動画像データを生成し、これをLCD制御部ex302を介して表示部ex202に供給し、これにより、例えばホームページにリンクされた動画像ファイルに含まれる動画データが表示される。このとき同時に音声処理部ex305は、音声データをアナログ音声信号に変換した後、これを音声出力部ex208に供給し、これにより、例えばホームページにリンクされた動画像ファイルに含まれる音声データが再生される。
また、画像認識部ex314は、本発明に係る画像認識装置であり、カメラ部ex203で撮影された画像や記録メディアex207から読み出した画像に対して画像認識処理を行う。
このように、上記実施の形態で示した画像認識方法を、上述したいずれの機器・システムに用いることも可能であり、そうすることで、上記実施の形態で説明した効果を得ることができる。
また、上記実施の形態及び変形例で示したブロック図の各機能ブロックは、典型的には、集積回路であるLSIとして実現される。このLSIは1チップ化されてもよいし、複数チップ化されてもよい(例えば、メモリ以外の機能ブロックが1チップ化されていてもよい)。なお、集積回路は、LSIだけに限られず、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIであってもよい。また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用した回路で実現してもよい。
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。
また、上記実施の形態及び変形例で示したブロック図の各機能ブロックおよびフローチャートは、専用の回路等のハードウェアで実現してもよいし、その中心的部分をプロセッサおよびプログラムによって実現してもよい。
また、本発明は、上記実施の形態及び変形例に限定されるものではなく、本発明の主旨を逸脱しない範囲で、種々の変形、修正及び組み合わせが可能である。
本発明は、入力された画像が何を示す画像であるかを認識結果として出力する画像認識装置として、例えば、画像を取り扱うことができる情報処理装置、特に、撮像機能を有するデジタルカメラ、携帯電話、パーソナルコンピュータ等に実装することができ、景観ラベリング装置として、あるいは、花、木、昆虫等のオブジェクトを撮影してその場で詳細な分析を支援する分析装置としても利用できる。
図1は、従来の画像処理装置の構成を示す機能ブロック図である。 図2は、本発明の画像処理装置の構成を示す機能ブロック図である。 図3は、本発明の画像処理装置の動作を示すフローチャートである。 図4は、本発明の画像処理装置の動作を説明する図である。 図5は、図3のステップS102の詳細を示すフローチャートである。 図6は、本発明の画像処理装置の出力例を示す図である。 図7は、第1の変形例に係る画像処理装置の構成を示す機能ブロック図である。 図8は、第1の変形例に係る画像処理装置の動作を説明する図である。 図9は、第2の変形例に係る画像処理装置の構成を示す機能ブロック図である。 図10は、第2の変形例に係る画像処理装置の分類データベースのデータ例を示す図である。 図11は、認識対象画像と類似画像との類似度で重みづけをして画像を認識する方法を説明する図である。 図12は、認識対象画像に付随する付随情報に関連する詳細情報をキーワードとして類似画像を検索する画像処理装置の構成と動作を示す図である。 図13は、認識結果を認識対象画像上に重畳させて表示する例を示す図である。 図14は、本発明の画像処理装置を実現するプログラムを格納する記録媒体を示す図である。 図15は、本発明の画像処理装置を実装した各種電子機器の例を示す図である。 図16は、本発明の画像認識装置を備える携帯電話の外観図である。 図17は、本発明の画像処理装置を備える携帯電話の機能ブロック図である。
200、400、500、600 画像認識装置
201 画像入力部
202 類似画像検索部
203 キーワード抽出部
204 キーワード解析部
205 提示部
206 サーバ装置
401 画像指定部
501 簡易分類部
502 分類データベース
610 前処理部
620 詳細情報データベース

Claims (15)

  1. 入力された画像が何を示す画像であるかを認識結果として出力する画像認識装置であって、
    認識対象画像を取得する画像入力部と、
    インターネットを介してアクセス可能なサーバ装置に置かれた、当該画像認識装置とは無関係に生成された自然発生的な複数の画像の中から、前記画像入力部で取得された認識対象画像と類似する1以上の類似画像を検索する類似画像検索部と、
    前記類似画像検索部で検索された類似画像に付随する情報の中から、前記認識対象画像の認識結果の候補となり得る複数のキーワードを抽出するキーワード抽出部と、
    前記キーワード抽出部で抽出された複数のキーワードを解析することにより、前記複数のキーワードのうち、前記認識対象画像の認識結果として尤もらしいものを少なくとも1つ特定するキーワード解析部と、
    前記キーワード解析部で特定されたキーワードを前記認識対象画像の認識結果として出力する提示部と
    を備える画像認識装置。
  2. 前記類似画像検索部は、Exifファイルの画像を前記類似画像として検索し、
    前記キーワード抽出部は、前記Exifファイル中のヘッダ情報から、前記キーワードを抽出する
    請求項1記載の画像認識装置。
  3. 前記類似画像検索部は、前記サーバ装置に置かれたwebページから前記類似画像を検索し、
    前記キーワード抽出部は、前記webページ又は前記webページと関連づけられたwebページに含まれるタグ情報を手がかりにして、前記キーワードを抽出する
    請求項1記載の画像認識装置。
  4. 前記類似画像検索部は、前記サーバ装置に置かれたwebページから前記類似画像を検索し、
    前記キーワード抽出部は、前記webページ又は前記webページと関連づけられたwebページに含まれる周辺語句を前記キーワードとして抽出する
    請求項1記載の画像認識装置。
  5. 前記キーワード抽出部は、重複を許す複数のキーワードを抽出し、
    前記キーワード解析部は、前記キーワード抽出部で抽出された複数のキーワードのそれぞれについて、個数を解析し、個数の多いキーワードを認識結果として特定する
    請求項1記載の画像認識装置。
  6. 前記類似画像検索部は、前記認識対象画像と類似する複数の画像を前記類似画像として検索するとともに、前記複数の類似画像のそれぞれについて、前記認識対象画像との類似度を算出し、
    前記キーワード解析部は、前記キーワード抽出部で抽出された複数のキーワードのそれぞれについて、付随していた画像に対して前記類似画像検索部で算出された類似度を対応させ、対応する類似度の高いキーワードを認識結果として特定する
    請求項1記載の画像認識装置。
  7. 前記キーワード抽出部は、重複を許す複数のキーワードを抽出し、
    前記キーワード解析部はさらに、前記キーワード抽出部で抽出された複数のキーワードのそれぞれについて、個数を解析し、個数が多く、かつ、前記類似度の高いキーワードを認識結果として特定する
    請求項6記載の画像認識装置。
  8. 前記キーワード解析部は、前記個数又は前記類似度の大きい複数個のキーワードを前記認識結果として特定し、
    前記提示部は、前記キーワード解析部で特定された複数のキーワードを、前記個数又は前記類似度の大きい順に、表示出力する
    請求項5記載の画像認識装置。
  9. さらに、前記画像入力部で取得された認識対象画像のうち、認識対象とすべき領域の指定をユーザから取得する画像指定部を備え、
    前記類似画像検索部は、前記画像指定部で取得された領域に含まれる画像と類似する画像を検索する
    請求項1記載の画像認識装置。
  10. さらに、
    複数の画像のテンプレートについて、各画像のテンプレートが属するカテゴリーを対応づけた情報を記憶する分類データベースと、
    前記画像入力部で取得された認識対象画像と前記分類データベースに記憶されている画像のテンプレートとを照合することにより、前記認識対象画像がいかなるカテゴリーに属するかを特定する簡易分類部とを備え、
    前記類似画像検索部は、前記簡易分類部による分類結果を検索時のキーワードとして利用することにより、前記認識対象画像と類似する画像であり、かつ、前記分類結果のカテゴリーに属する画像を検索する
    請求項1記載の画像認識装置。
  11. さらに、
    認識対象画像となり得る画像に付随する複数の付随情報のそれぞれについて、当該付随情報の詳細な情報を対応づけて記憶する詳細情報データベースと、
    前記画像入力部で取得された認識対象画像に付随する付随情報を取得し、取得した付随情報と前記詳細情報データベースに登録された付随情報とを照合することにより、前記画像入力部で取得された認識対象画像に付随する付随情報に対応する詳細情報を取得する前処理部とを備え、
    前記類似画像検索部は、前記前処理部によって取得された詳細情報を検索時のキーワードとして利用することにより、前記認識対象画像と類似し、かつ、前記詳細情報と関連する画像を検索する
    請求項1記載の画像認識装置。
  12. 前記画像は、撮影画像であり、
    前記付随情報は、撮影が行われた地理的な場所を示し、
    前記詳細情報データベースは、複数の地理的な場所について、当該場所又は当該場所の近くに位置するランドマークを特定する情報を前記詳細情報として記憶する
    請求項11記載の画像認識装置。
  13. 前記認識対象画像は、Exifファイルであり、
    前記前処理部は、前記画像入力部で取得された認識対象画像を含むExifファイル中のヘッダ情報から、前記付随情報を取得する
    請求項12記載の画像認識装置。
  14. 入力された画像が何を示す画像であるかを認識結果として出力する画像認識装置で用いられる画像認識方法であって、
    前記画像認識装置は、分類データベースを保持する蓄積媒体と、画像入力部と、簡易分類部と、類似画像検索部と、キーワード抽出部と、キーワード解析部と、提示部とを備え、
    前記分類データベースは、複数の画像のテンプレートについて、各画像のテンプレートが属するカテゴリーを対応づけた情報を格納しており、
    前記画像認識方法は、
    前記画像入力部が、認識対象画像を取得する画像入力ステップと、
    前記簡易分類部が、前記画像入力ステップで取得された認識対象画像と前記蓄積媒体に保持された前記分類データベースに格納されている画像のテンプレートとを照合することにより、前記認識対象画像がいかなるカテゴリーに属するかを特定する簡易分類ステップと、
    前記類似画像検索部が、インターネットを介してアクセス可能なサーバ装置に置かれた、当該画像認識方法とは無関係に生成された自然発生的な複数の画像の中から、前記画像入力ステップで取得された認識対象画像と類似する1以上の類似画像を、前記簡易分類ステップによる分類結果を検索時のキーワードとして利用することにより、前記認識対象画像と類似する画像であり、かつ、前記分類結果のカテゴリーに属する画像を検索する類似画像検索ステップと、
    前記キーワード抽出部が、前記類似画像検索ステップで検索された類似画像に付随する情報の中から、前記認識対象画像の認識結果の候補となり得る複数のキーワードを抽出するキーワード抽出ステップと、
    前記キーワード解析部が、前記キーワード抽出ステップで抽出された複数のキーワードを解析することにより、前記複数のキーワードのうち、前記認識対象画像の認識結果として尤もらしいものを少なくとも1つ特定するキーワード解析ステップと、
    前記提示部が、前記キーワード解析ステップで特定されたキーワードを前記認識対象画像の認識結果として出力する提示ステップと
    を含む画像認識方法。
  15. コンピュータ読み取り可能な記録媒体に格納されたプログラムであって、
    請求項14記載の画像認識方法に含まれるステップをコンピュータに実行させるプログラム。
JP2009519161A 2007-06-14 2008-06-12 画像認識装置及び画像認識方法 Active JP5200015B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009519161A JP5200015B2 (ja) 2007-06-14 2008-06-12 画像認識装置及び画像認識方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007157207 2007-06-14
JP2007157207 2007-06-14
JP2009519161A JP5200015B2 (ja) 2007-06-14 2008-06-12 画像認識装置及び画像認識方法
PCT/JP2008/001495 WO2008152805A1 (ja) 2007-06-14 2008-06-12 画像認識装置及び画像認識方法

Publications (2)

Publication Number Publication Date
JPWO2008152805A1 JPWO2008152805A1 (ja) 2010-08-26
JP5200015B2 true JP5200015B2 (ja) 2013-05-15

Family

ID=40129419

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009519161A Active JP5200015B2 (ja) 2007-06-14 2008-06-12 画像認識装置及び画像認識方法

Country Status (4)

Country Link
US (1) US8108408B2 (ja)
JP (1) JP5200015B2 (ja)
CN (1) CN101542531B (ja)
WO (1) WO2008152805A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8515507B2 (en) 2008-06-16 2013-08-20 Given Imaging Ltd. Device and method for detecting in-vivo pathology
US8663093B2 (en) 2006-04-03 2014-03-04 Given Imaging Ltd. Device, system and method for in-vivo analysis
US8738106B2 (en) 2005-01-31 2014-05-27 Given Imaging, Ltd Device, system and method for in vivo analysis
KR102609616B1 (ko) 2020-04-03 2023-12-04 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 이미지 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능한 저장 매체

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8676001B2 (en) 2008-05-12 2014-03-18 Google Inc. Automatic discovery of popular landmarks
US8520979B2 (en) 2008-08-19 2013-08-27 Digimarc Corporation Methods and systems for content processing
JP5294818B2 (ja) * 2008-12-08 2013-09-18 キヤノン株式会社 情報処理装置及び情報処理方法
US20100166303A1 (en) * 2008-12-31 2010-07-01 Ali Rahimi Object recognition using global similarity-based classifier
JP4720913B2 (ja) * 2009-02-19 2011-07-13 ソニー株式会社 学習装置、学習方法、識別装置、識別方法、及び、プログラム
US8396287B2 (en) 2009-05-15 2013-03-12 Google Inc. Landmarks from digital photo collections
KR101778135B1 (ko) * 2009-08-24 2017-09-14 삼성전자주식회사 오브젝트 정보 제공방법 및 이를 적용한 촬영장치
US20110158605A1 (en) * 2009-12-18 2011-06-30 Bliss John Stuart Method and system for associating an object to a moment in time in a digital video
EP2514123A2 (en) * 2009-12-18 2012-10-24 Blipsnips, Inc. Method and system for associating an object to a moment in time in a digital video
US8799798B2 (en) * 2010-06-09 2014-08-05 Fujitsu Limited Method and system for handwriting-based launch of an application
CN102687147B (zh) * 2010-08-03 2016-06-08 松下电器(美国)知识产权公司 信息处理装置、处理方法及集成电路
JP5550115B2 (ja) * 2010-09-27 2014-07-16 Necカシオモバイルコミュニケーションズ株式会社 文字入力支援システム、文字入力支援サーバ、文字入力支援方法およびプログラム
KR101692399B1 (ko) * 2010-10-14 2017-01-03 삼성전자주식회사 감성 기반의 영상을 얻을 수 있는 디지털 영상 처리 장치 및 디지털 영상 처리 방법
JP5121917B2 (ja) * 2010-12-21 2013-01-16 ヤフー株式会社 画像検索装置、画像検索方法及びプログラム
EP2697727A4 (en) * 2011-04-12 2014-10-01 Captimo Inc METHOD AND SYSTEM FOR RESEARCH BASED ON GESTURES
CN102779140B (zh) * 2011-05-13 2015-09-02 富士通株式会社 一种关键词获取方法及装置
US20130124303A1 (en) * 2011-11-14 2013-05-16 Google Inc. Advertising Keyword Generation Using an Image Search
JP5845927B2 (ja) * 2012-01-26 2016-01-20 トヨタ自動車株式会社 物体認識装置、認識方法、及び認識プログラム
JP6021366B2 (ja) * 2012-03-12 2016-11-09 キヤノン株式会社 情報処理システム、情報処理システムの制御方法、情報処理装置、コンピュータプログラム。
US20130275411A1 (en) * 2012-04-13 2013-10-17 Lg Electronics Inc. Image search method and digital device for the same
EP2849427B1 (en) * 2012-05-23 2020-02-19 Mission Infrared Electro Optics Technology Co. Ltd Infrared recording device and infrared recording method
CN103425693B (zh) * 2012-05-23 2016-12-21 富士通株式会社 图像处理装置、图像处理方法以及电子设备
CN102855298B (zh) * 2012-08-16 2016-08-03 熊兵 图像检索方法及系统
US9471676B1 (en) * 2012-10-11 2016-10-18 Google Inc. System and method for suggesting keywords based on image contents
TW201421267A (zh) * 2012-11-21 2014-06-01 Hon Hai Prec Ind Co Ltd 搜索系統及方法
US20140379604A1 (en) * 2013-03-13 2014-12-25 Shiphawk Methods and systems for item shipment based on an item image
US11080318B2 (en) * 2013-06-27 2021-08-03 Kodak Alaris Inc. Method for ranking and selecting events in media collections
US9355123B2 (en) 2013-07-19 2016-05-31 Nant Holdings Ip, Llc Fast recognition algorithm processing, systems and methods
US20150046875A1 (en) * 2013-08-07 2015-02-12 Ut-Battelle, Llc High-efficacy capturing and modeling of human perceptual similarity opinions
KR102120864B1 (ko) * 2013-11-06 2020-06-10 삼성전자주식회사 영상 처리 방법 및 장치
JP6116472B2 (ja) * 2013-12-26 2017-04-19 富士フイルム株式会社 情報端末、画像検索システムおよび画像検索方法
WO2015123647A1 (en) 2014-02-14 2015-08-20 Nant Holdings Ip, Llc Object ingestion through canonical shapes, systems and methods
KR20150117385A (ko) * 2014-04-10 2015-10-20 삼성전자주식회사 이미지 태깅 방법 및 장치
US9965547B2 (en) * 2014-05-09 2018-05-08 Camelot Uk Bidco Limited System and methods for automating trademark and service mark searches
US10049477B1 (en) 2014-06-27 2018-08-14 Google Llc Computer-assisted text and visual styling for images
JP5708868B1 (ja) * 2014-08-20 2015-04-30 富士ゼロックス株式会社 プログラム、情報処理装置及び方法
KR102271741B1 (ko) * 2015-01-14 2021-07-02 삼성전자주식회사 원본 컨텐츠와 연계된 편집 영상의 생성 및 디스플레이
JP6402653B2 (ja) 2015-03-05 2018-10-10 オムロン株式会社 物体認識装置、物体認識方法、およびプログラム
JP6578679B2 (ja) * 2015-03-10 2019-09-25 富士ゼロックス株式会社 画像処理装置及びプログラム
JP6594646B2 (ja) * 2015-04-10 2019-10-23 ヴイストン株式会社 ロボット及びロボット制御方法並びにロボットシステム
JP2017004252A (ja) * 2015-06-10 2017-01-05 株式会社ウイル・コーポレーション 画像情報処理システム
JP6460926B2 (ja) * 2015-06-25 2019-01-30 Kddi株式会社 撮影画像に写る物体を検索するシステム及び方法
CN105034070B (zh) * 2015-06-30 2017-06-30 东莞市钲晟电子科技有限公司 一种信号屏蔽板材的加工系统
CN105868772A (zh) * 2016-03-23 2016-08-17 百度在线网络技术(北京)有限公司 图像识别方法及装置
JP6647141B2 (ja) * 2016-05-24 2020-02-14 日本放送協会 キーワードリスト生成装置、コンテンツ視聴装置、およびキーワードリスト生成プログラム
JP6120467B1 (ja) * 2016-06-24 2017-04-26 サイジニア株式会社 サーバ装置、端末装置、情報処理方法、およびプログラム
CN106204577A (zh) * 2016-07-05 2016-12-07 董超超 一种通过斑块特征配准的图像识别装置
US10579741B2 (en) 2016-08-17 2020-03-03 International Business Machines Corporation Proactive input selection for improved machine translation
US10311330B2 (en) 2016-08-17 2019-06-04 International Business Machines Corporation Proactive input selection for improved image analysis and/or processing workflows
CN106354885A (zh) * 2016-10-14 2017-01-25 百度在线网络技术(北京)有限公司 搜索方法和装置
CN106960215A (zh) * 2017-02-21 2017-07-18 广州七乐康药业连锁有限公司 一种基于云平台实现医疗图像深度匹配的方法及系统
JP6780548B2 (ja) 2017-03-03 2020-11-04 富士通株式会社 特徴語分類プログラム、特徴語分類方法および情報処理装置
JP6880859B2 (ja) * 2017-03-14 2021-06-02 富士通株式会社 位置情報出力プログラム、位置情報出力方法および情報処理装置
CN108334533B (zh) * 2017-10-20 2021-12-24 腾讯科技(深圳)有限公司 关键词提取方法和装置、存储介质及电子装置
CN110503279A (zh) * 2018-05-16 2019-11-26 北京牡丹电子集团有限责任公司 提供自适应调整的波特五力决策建议系统及其方法
US11023519B1 (en) * 2018-10-16 2021-06-01 Pinterest, Inc. Image keywords
CN109740671B (zh) * 2019-01-03 2021-02-23 北京妙医佳信息技术有限公司 一种图像识别方法及装置
JP7221156B2 (ja) * 2019-06-28 2023-02-13 富士フイルム株式会社 画像処理システム、画像処理方法及びプログラム
CN110807486B (zh) * 2019-10-31 2022-09-02 北京达佳互联信息技术有限公司 类别标签的生成方法、装置、电子设备及存储介质
CN110879849B (zh) * 2019-11-09 2022-09-20 广东智媒云图科技股份有限公司 一种基于图像转文字的相似度比较方法及装置
SG10201913005YA (en) * 2019-12-23 2020-09-29 Sensetime Int Pte Ltd Method, apparatus, and system for recognizing target object
CN111178301B (zh) * 2019-12-30 2023-10-17 北京迈格威科技有限公司 对象再识别的方法、装置和电子系统
JP7467999B2 (ja) * 2020-03-10 2024-04-16 セイコーエプソン株式会社 スキャンシステム、プログラム、およびスキャンシステムのスキャンデータ生成方法
CN111506758B (zh) * 2020-04-16 2024-05-03 腾讯科技(深圳)有限公司 物品名称确定方法、装置、计算机设备及存储介质
JP7457667B2 (ja) * 2021-03-26 2024-03-28 株式会社日立製作所 モニタ調査装置及びモニタ調査方法
CN113194106B (zh) * 2021-07-02 2021-09-17 北京易华录信息技术股份有限公司 一种网络数据安全识别系统及方法
CN115527212A (zh) * 2021-11-09 2022-12-27 上海曌睿信息科技有限公司 一种基于特征训练的字符识别处理系统
US11933986B2 (en) 2022-03-11 2024-03-19 Bank Of America Corporation Apparatus and methods to extract data with smart glasses

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004145416A (ja) * 2002-10-22 2004-05-20 Nippon Telegr & Teleph Corp <Ntt> 画像認識用サーバ、画像認識用携帯端末装置、画像認識方法、画像認識用プログラム、画像認識用プログラムを記録した記録媒体
WO2007005118A2 (en) * 2005-06-29 2007-01-11 Microsoft Corporation Query-by-image search and retrieval system
JP2007133816A (ja) * 2005-11-14 2007-05-31 Nikon Corp 植物同定システム、及び生物同定システム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6763148B1 (en) * 2000-11-13 2004-07-13 Visual Key, Inc. Image recognition methods
KR100451649B1 (ko) * 2001-03-26 2004-10-08 엘지전자 주식회사 이미지 검색방법과 장치
US7872669B2 (en) * 2004-01-22 2011-01-18 Massachusetts Institute Of Technology Photo-based mobile deixis system and related techniques
JP4478513B2 (ja) 2004-06-10 2010-06-09 キヤノン株式会社 デジタルカメラ、デジタルカメラの制御方法、プログラムおよびそれを格納した記録媒体
JP4890212B2 (ja) * 2005-12-12 2012-03-07 株式会社リコー スキャン画像管理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004145416A (ja) * 2002-10-22 2004-05-20 Nippon Telegr & Teleph Corp <Ntt> 画像認識用サーバ、画像認識用携帯端末装置、画像認識方法、画像認識用プログラム、画像認識用プログラムを記録した記録媒体
WO2007005118A2 (en) * 2005-06-29 2007-01-11 Microsoft Corporation Query-by-image search and retrieval system
JP2007133816A (ja) * 2005-11-14 2007-05-31 Nikon Corp 植物同定システム、及び生物同定システム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200600531002; 竹内 謹冶 他: '類似画像とキーワードを利用したWeb画像の説明文抽出' 情報処理学会研究報告 Vol.2006,No.1(2006-NL-171(2)), 20060112, pp.7-12., 社団法人情報処理学会 *
CSNG200600604001; 田畑 惣太郎 他: '花の画像検索システムと検索方法の評価' 電子情報通信学会技術研究報告 Vol.104、No.668(NLC2004-116), 20050218, pp.1-6., 社団法人電子情報通信学会 *
JPN6012056821; 竹内 謹冶 他: '類似画像とキーワードを利用したWeb画像の説明文抽出' 情報処理学会研究報告 Vol.2006,No.1(2006-NL-171(2)), 20060112, pp.7-12., 社団法人情報処理学会 *
JPN6012056823; 田畑 惣太郎 他: '花の画像検索システムと検索方法の評価' 電子情報通信学会技術研究報告 Vol.104、No.668(NLC2004-116), 20050218, pp.1-6., 社団法人電子情報通信学会 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8738106B2 (en) 2005-01-31 2014-05-27 Given Imaging, Ltd Device, system and method for in vivo analysis
US8663093B2 (en) 2006-04-03 2014-03-04 Given Imaging Ltd. Device, system and method for in-vivo analysis
US8515507B2 (en) 2008-06-16 2013-08-20 Given Imaging Ltd. Device and method for detecting in-vivo pathology
KR102609616B1 (ko) 2020-04-03 2023-12-04 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 이미지 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능한 저장 매체

Also Published As

Publication number Publication date
CN101542531A (zh) 2009-09-23
WO2008152805A1 (ja) 2008-12-18
JPWO2008152805A1 (ja) 2010-08-26
CN101542531B (zh) 2012-12-19
US8108408B2 (en) 2012-01-31
US20100077003A1 (en) 2010-03-25

Similar Documents

Publication Publication Date Title
JP5200015B2 (ja) 画像認識装置及び画像認識方法
US12455920B2 (en) Content navigation with automated curation
US12019675B2 (en) Recognizing text in image data
CN111582297B (zh) 细粒度分类
JP6278893B2 (ja) 対話型マルチモード画像検索
US20080270378A1 (en) Method, Apparatus and Computer Program Product for Determining Relevance and/or Ambiguity in a Search System
US12289283B2 (en) Automated image processing and insight presentation
CN102292722A (zh) 基于多模元数据和结构化语义描述符来产生注释标签
WO2009156561A1 (en) Method, apparatus and computer program product for providing image modification
CN110738262B (zh) 文本识别方法和相关产品
CN116304146B (zh) 图像处理方法及相关装置
CN111222011B (zh) 一种视频向量确定方法和装置
CN104268504B (zh) 图片识别方法和装置
CN113392902B (zh) 数据集处理方法、装置、存储介质及电子设备
JP2002197103A (ja) 情報提供方法およびそのシステム
KR20110138850A (ko) 사용자 적응형 이미지 관리 시스템 및 사용자 적응형 이미지 관리 방법
CN114780757A (zh) 短媒体标签抽取方法、装置、计算机设备和存储介质
CN117354557A (zh) 视频处理方法、装置、设备和介质
JP2018137639A (ja) 動画像処理システム、並びに、符号化装置及びプログラム、並びに、復号装置及びプログラム
US20160055180A1 (en) Non-transitory recording medium, information processing device, and method
CN112651332A (zh) 基于照片库的场景设施识别方法、系统、设备及存储介质
KR102922088B1 (ko) 시나리오 맞춤형 영상 자동 생성 서버 및 이의 실행 방법
AU2013273790A1 (en) Heterogeneous feature filtering
CN121457448A (en) Multi-mode data-based document generation method, device, equipment, medium and product
TW201946050A (zh) 語音辨識裝置及方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110602

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121030

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130208

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160215

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5200015

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150