JP2004362314A - Search information registration device, information search device, search information registration method - Google Patents
Search information registration device, information search device, search information registration method Download PDFInfo
- Publication number
- JP2004362314A JP2004362314A JP2003160624A JP2003160624A JP2004362314A JP 2004362314 A JP2004362314 A JP 2004362314A JP 2003160624 A JP2003160624 A JP 2003160624A JP 2003160624 A JP2003160624 A JP 2003160624A JP 2004362314 A JP2004362314 A JP 2004362314A
- Authority
- JP
- Japan
- Prior art keywords
- image
- phrase
- search
- extracted
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】ユーザが意図する画像を簡単に検索ができる仕組みを提供することを課題とする。
【解決手段】オブジェクト抽出部106により登録する画像中のオブジェクトを抽出し、特徴量抽出部107が抽出されたオブジェクトの視覚的特徴を抽出し、単語推定部108が画像の視覚的特徴を表す単語を記憶する視覚分類辞書部101を参照して抽出したオブジェクトの視覚的特徴に対応する単語を抽出し、語句推定部109が語句と単語を関連付けて記憶する語彙辞書部102を参照して抽出した単語に関連付けられている語句を抽出して、画像データベース104に当該語句とオブジェクトを含む画像と関連付けて記憶するようにした。
【選択図】 図1An object of the present invention is to provide a mechanism capable of easily searching for an image intended by a user.
An object extracting unit extracts an object in an image to be registered, a feature amount extracting unit extracts a visual feature of the extracted object, and a word estimating unit extracts a word representing a visual feature of the image. The word corresponding to the visual feature of the extracted object is extracted by referring to the visual classification dictionary unit 101 that stores the words, and the phrase estimating unit 109 extracts the words by referring to the vocabulary dictionary unit 102 that stores the words in association with the words. The phrase associated with the word is extracted and stored in the image database 104 in association with the image including the phrase and the object.
[Selection diagram] Fig. 1
Description
【0001】
【発明の属する技術分野】
本発明は、情報検索及び情報検索のためのデータベースを作成するための技術であって、特に画像を検索するのに好適な技術に関する。
【0002】
【従来の技術】
従来、複数の画像を記憶した画像データベースから所望の画像を抽出する場合、何らかの方法で検索する画像の特徴を特定し、この特徴に基づいて検索を行っていた。その一例として、人が所望の画像を表現するために言葉を用いることが多いことから、画像を言葉により表現してテキスト情報としてデータベース化して検索することが行われていた。またテキストでは画像の特徴の表現が不十分であるため、画像の特徴量を抽出してそれをデータベース化して画像の検索が行われていた。
さらに検索するユーザの意図にあった画像検索を可能とするため、画像の潜在的な意味をインデックスとする手法や、2次元MHMMによる画像全体の統計的モデル化を行ったり、EMによる統計的学習と識別の応用、Hopfieldネットワークに概念の連想など様々な手法が提案されている。
【0003】
この一例として、検索すべき画像の意味および認識による記述をユーザから受け取り、キーワード等の意味的検索を行うと共に、形態的もしくは構成要素の空間的関係に基づく類似画像検索を行い、これらの検索結果を統合し、検索結果を類似度基準に基づくランキングを行ってユーザに提供する方法などが提案されている(例えば、特許文献1)。
また、別の方法としては、画像データの所定領域を解析して、領域の色、テクスチャ、大きさなど特徴量を属性として付与するとともに、各領域間の位相関係を表したデータを作成しておき、各領域間の位相関係からオブジェクトで置換して、このオブジェクト、オブジェクトの相対位置及びオブジェクトの位相関係をキーワードとして抽出し、このキーワードを画像データと共に登録することが提案されている(例えば、特許文献2)。
【0004】
【特許文献1】
特開平10−240771号公報
【特許文献2】
特開平10−49542号公報
【0005】
【発明が解決しようとする課題】
しかし、従来の意味ベースの画像検索システムでは、類似度を評価するモデルがオブジェクトなどの視覚的な属性の中で客観的に捉えられるものだけに依存しているものがほとんどであった。
そのため、ユーザがある状況の中で感じる画像の主観的な類似度と食い違うことが多く、いわゆるセマンティックギャップが発生してしまうという問題があった。そして、このセマンティックギャップのため、例えば、同じ動物の画像を検索する場合にであっても、従来であれば座っているライオンの画像、右を向いているライオンの画像、走っているライオンの画像などすべて同じ「ライオン」という言葉に関連付けられていたため、ユーザが寝ているライオンの画像を検索しようとすると、全てのライオンの画像が抽出されてしまったり、又は走っているライオンの画像などのユーザの意図しない画像が優先的に選択されるなどの問題がった。そのため、膨大な画像の中からユーザの主観的な意図に基づいて画像を検索しようとしても、意図する画像を検索することは大変困難であった。
【0006】
また、テキストに基づく画像検索だけでなく、ある画像に関連する画像を検索したい場合、その画像の捉え方、感じ方はユーザにより様々である。そのため、同じ画像でもユーザにより関連付ける言葉が異なり、ある画像に基づいてこれに関連する画像を検索することは非常に困難であった。
【0007】
本発明は上述の問題点を解決するためになされたものであって、ユーザが意図する画像を簡単に検索できる仕組みを提供することを課題とする。
【0008】
【課題を解決するための手段】
上述の課題を解決するため、本発明は画像中のオブジェクトの視覚的特徴を表す単語の検索と、当該単語に関連する意味を持った語句の検索の2段階の検索を取り入れることにより、より高い精度で検索が行える仕組みを提供する。
このための仕組みの一例として、本発明にかかる検索情報登録装置は、登録対象の画像のデータの入力を受け付ける登録受付手段と、受け付けた画像中のオブジェクトを抽出するオブジェクト抽出手段と、当該オブジェクトの視覚的特徴を抽出する特徴抽出手段と、画像中のオブジェクトの視覚的特徴と当該視覚的特徴を表す単語を関連付けて記憶する第1の記憶手段と、上記第1の記憶手段を参照して、抽出したオブジェクトの視覚的特徴に対応する単語を抽出する単語抽出手段と、意味概念をあらわす語句と上記視覚的特徴をあらわす単語とを関連付けて記憶する第2の記憶手段と、上記第2の記憶手段を参照して、上記オブジェクトの視覚的特徴を表す単語に関連付けられている語句を抽出する語句抽出手段と、抽出された語句を上記オブジェクトを含む画像と関連付けて検索情報として記憶する第3の記憶手段とを有することを特徴とする。
【0009】
また、語句の類義語及び語句が属するカテゴリの類義カテゴリを記憶する類義語・類義カテゴリ記憶手段と、類義語・類義カテゴリ記憶手段を参照して、上記抽出された語句の類義語及び当該語句が属する類義カテゴリを検索する類義語検索手段を更に有し、上記第3の記憶手段は、上記オブジェクト画像に関連付けて検索された類義語及び類義カテゴリを更に記憶するようにしてもよい。
【0010】
また、上記登録受付手段は、登録対象の画像に付加されている当該画像に関連した内容を有するテキストデータを更に受け付け、上記語句抽出手段は上記受け付けたテキストデータに含まれる語句を更に抽出するようにしてもよい。
【0011】
また、上記第2の記憶手段には、さらに語句に関連付けて当該語句のカテゴリが記憶されており、上記語句抽出手段は、抽出した語句が属するカテゴリを更に抽出して上記第3の記憶手段に記憶するようにしてもよい。
また、上記オブジェクトの視覚的特徴は、オブジェクトの色、テクスチャ、形状により特徴を特定するようにしてもよい。
また、上記単語抽出手段は、複数の単語を抽出し、上記語句抽出手段は、一つのオブジェクトに対して複数の語句を抽出するようにしてもよい。
【0012】
本発明の一の観点にかかる情報検索装置は、検索対象となる検索画像の入力を受け付ける検索受付手段と、受け付けた検索画像からオブジェクトを抽出するオブジェクト抽出手段と、抽出されたオブジェクトの視覚的特徴を抽出する視覚的特徴抽出手段と、画像の視覚的特徴を表す単語を記憶する第1の記憶手段と、上記第1の記憶手段を参照して、抽出した視覚的特徴に対応する単語を抽出する単語抽出手段と、意味概念をあらわす語句と上記視覚的特徴をあらわす単語を関連付けて記憶する第2の記憶手段と、画像と当該画像に関連する語句及び当該語句が属するカテゴリとを関連付けて記憶する第3の記憶手段と、上記第2の記憶手段を参照して、上記検索画像の視覚的特徴を表す単語に関連付けられている1又は複数の語句を抽出する語句抽出手段と、上記第3の記憶手段を参照して、上記抽出された1又は複数の語句に関連付けられている画像を検索して出力する検索出力手段とを有することを特徴とする。
【0013】
上記受付手段は、検索対象となる画像に関するテキストデータをさらに受け付け、上記検索出力手段は、上記第3の記憶手段を参照して、上記語句抽出手段により抽出された語句及び上記テキストデータに含まれる語句に関連付けられている画像を検索して出力するようにしてもよい。
【0014】
また、上記出力された画像のうち、ユーザにより選択された割合又は頻度に基づいて画像に関連付けられている語句及びカテゴリの重み付けを行う評価手段を更に有し、上記第3の記憶手段には、評価手段により評価された画像に対する各語句及び各カテゴリの重み付けを記憶し、上記画像検索出力手段は、上記重み付けを参照して抽出された語句及びカテゴリの重み付けが高い画像を優先して検索出力するようにしてもよい。
【0015】
本発明の一の観点にかかる検索情報登録方法は、画像中のオブジェクトの視覚的特徴を表す単語を記憶する第1の記憶手段と、意味概念をあらわす語句と上記視覚的特徴をあらわす単語とを関連付けて記憶する第2の記憶手段とを有するコンピュータにより実行される方法であって、上記コンピュータが、登録対象画像中のオブジェクトを抽出するステップと、当該オブジェクトの視覚的特徴を抽出するステップと、上記第1の記憶手段を参照して、抽出したオブジェクトの視覚的特徴に対応する単語を抽出するステップと、上記第2の記憶手段を参照して、上記オブジェクトの視覚的特徴を表す単語に関連付けられている語句を抽出し、抽出された語句を上記オブジェクトを含む画像と関連付けて第3の記憶手段に記憶するステップとを行うことを特徴とする。
【0016】
また情報検索方法としては、画像の視覚的特徴を表す単語を記憶する第1の記憶手段と、意味概念をあらわす語句と上記視覚的特徴をあらわす単語を関連付けて記憶する第2の記憶手段と、上記語句と当該語句に関連する画像とを関連付けて記憶する第3の記憶手段とを有するコンピュータにより実行される方法であって、コンピュータが、検索対象となる検索画像の入力を受け付けるステップと、受け付けた検索画像からオブジェクトを抽出するステップと、抽出されたオブジェクトの視覚的特徴を抽出するステップと、上記第1の記憶手段を参照して、抽出した視覚的特徴に対応する単語を抽出するステップと、上記第2の記憶手段を参照して、上記検索画像の視覚的特徴を表す単語に関連付けられている1又は複数の語句を抽出するステップと、上記第3の記憶手段を参照して、上記抽出された1又は複数の語句に関連付けられている画像を検索して出力するステップとを行うようにしてもよい。
【0017】
【発明の実施の形態】
以下、図面を参照して本発明にかかる検索情報登録装置及び情報検索装置を適用した装置の一実施形態について説明する。図1に本実施形態にかかる情報処理装置1の全体構成の一例を示す。
本実施形態にかかる情報処理装置1はコンピュータにより構成されており、CPU(Central Processing Unit)、CPUが実行するコンピュータプログラム、コンピュータプログラムや所定のデータなどを記憶することができるRAM、ROMなどの内部メモリ及びハードディスクドライブなどの外部記憶装置により図1に示した機能ブロックを構成することができる。
図1に示した機能ブロックは、視覚分類辞書部101、語彙辞書部102、類義語・類義カテゴリー辞書部103、画像データベース104、登録受付部105、オブジェクト抽出部106、特徴量抽出部107、単語推定部108、語句推定部109、類義語推定部110、検索受付部111、出力部112、評価処理部113から構成されている。
【0018】
視覚分類辞書部101は、画像の視覚的特徴を表す単語を記憶する記憶部である。視覚分類とはある画像特徴量を持つ画像を人が認識している名詞や形容詞などの言葉に置き換えるための分類である。本実施形態では、色、テクスチャ、形状の視覚的特徴から視覚分類を行っており、視覚分類辞書部101にはそれぞれに対応して、色テーブル、テクスチャテーブル、形状テーブルが記憶されている。
【0019】
色テーブルは、図2に示すように、各色をHSV(Hue Saturation Value)色空間により表したテーブルである。この図2に示したもののうち、Hは色相(Hue)、Sは彩度(Saturation)、Vは明度(Value)をそれぞれ表している。そして、例えば、黒であればHは「null」でS及びVはそれぞれ0のように、色ごとにHSVのそれぞれの値が定義されている。これらの値はHSV色空間に基づいた定義となっている。
テクスチャテーブルは、図3に示すように、テクスチャーごとにスポットやストライプなどの模様があるか否かが分析され定義されている。なお、このテクスチャーの分析は例えば、ガボールフィルタにより各テクスチャーを解析した結果に基づいてテーブルを作成することができる。
形状テーブルは、図4に示すように、円、矩形、三角形などの形状ごとに、その特徴を表すcurvature、circulation、invariant moment、differential invariantsのそれぞれ特徴量が定義されている。
【0020】
語彙辞書部102は、意味概念をあらわす語句と視覚的特徴をあらわす単語を関連付けて記憶する記憶部である。この語彙辞書部102には、図5に示すように意味概念をあらわす語句と、その語句が属するカテゴリーと、その語句の類義語と、その語句の説明とが関連付けられてている。
カテゴリはその語句を所定の基準に基づいて分類したものであり、例えば、「cat」に対しては、「beast」、「animal」などのカテゴリーが相当する。また、説明は、語句の意味概念を説明するためのテキストデータであり、この説明文中に視覚的特徴を表す色、テクスチャー、形状などの単語が1又は複数含まれるようになっている。
【0021】
類義語・類義カテゴリ辞書部103は、ある語句に対する類義語や、分類を表すカテゴリに類似するカテゴリを記憶したものである。
【0022】
画像データベース104は、語句と画像とを関連付けてデータベース化したものである。この画像データベース104には、画像を識別するための画像ID、画像中のオブジェクトの領域を表す領域ID、オブジェクトの特徴量、特徴量重み、画像中のオブジェクトを表す語句、語句の類義語、各類義語の重み付け値、オブジェクトが属するカテゴリ、各カテゴリの重み付け値が記憶できるようになっている。
オブジェクトの特徴量は、特徴量抽出部107により算出されたオブジェクトの特徴量である。
特徴量重み付け値は、オブジェクトの色、テクスチャ、形状ごとの重み付けを表しており、図6中cは色、tはテクスチャ、sは形状のそれぞれ重み付け値を示している。
また、類義語重み付け値は、各類義語が当該画像のオブジェクトとどの程度の関連性を有しているかを表す値であり、図6の例では、左から順にjaguarが0.8、cheetahが0.7というように類義語ごとに対応して記憶されており、値が大きいほど関連性が高いことを表している。同様に、カテゴリーについても、各カテゴリーに対してカテゴリー重み付け値が対応するようになっており、図示の例ではcreatureが0.9、animalが0.7のように重み付けがされている。
【0023】
オブジェクト抽出部106は、画像中からオブジェクトを抽出する処理を行う。
このオブジェクトの抽出は、例えば、オブジェクト抽出部106が、マルチスケール非線形色拡散(Multi−scale inhomogeneous color diffusion)アルゴリズムを適用して、画像領域内を徐々に細分化していくことにより特徴的なオブジェクト領域を抽出するようにしてもよい。
【0024】
特徴量抽出部107は、抽出したオブジェクトの視覚的特徴を抽出する処理を行う。視覚的特徴抽出としては、例えば、色はHSV色空間上でベクトル量子化を施したり、ガボールフィルタによる解析により抽出できる。
【0025】
単語推定部108は、視覚分類辞書部101を参照して、抽出したオブジェクトの視覚的特徴に対応する単語を抽出する処理を行う。この処理は、例えば、単語推定部108が、視覚分類辞書部101を参照して、特徴量抽出部107により抽出されたデータに基づいて色、テクスチャ、形状のそれぞれに合致した単語を抽出するようになっている。
【0026】
語句推定部109は、抽出された画像中のオブジェクトの視覚的特徴を表す単語に関連付けられている語句を推定して抽出する処理を行う。この処理は、語句推定部109が、語彙辞書部102の各語句の説明を参照して、視覚的特徴から抽出された単語が説明中に存在する場合に、当該語句を当該オブジェクトに関連する語句として抽出するようになっている。
また、語句推定部109は、画像に関連して当該画像の説明文などのテキストデータに付加されている場合には、当該テキストデータに含まれている語句を抽出する
また、語句推定部109は、語彙辞書部102から抽出した語句のカテゴリを抽出する。
【0027】
類義語推定部110は、抽出された語句の類義語及びカテゴリの類義カテゴリを抽出する処理を行う。
類義語、類義カテゴリの検索は、類義語・類義カテゴリー辞書部103を参照してある語句の類義語や、あるカテゴリの類義カテゴリーを検索するごとに類義語、類義カテゴリを抽出できるようになっている。
【0028】
検索受付部111は、ユーザからの画像検索要求を受け付ける処理を行う。検索要求の受付は、所定のディスプレイ上に所定の検索要求入力画面を表示して底から検索対象の画像等を入力できるようにすることができる。
なお、画像検索要求は、例えば、言葉を用いたテキストデータによる画像検索要求、所定の画像データに基づいた関連画像の検索要求、画像データとテキストデータとによる関連画像の検索要求のいずれでもよい。
【0029】
出力部112は、画像データベース104を参照して、抽出された語句に関連付けられている画像を検索して所定のディスプレイなどに出力する処理を行う。
また、出力部112は、検索要求としてテキストデータを含む検索要求を受け付けた場合には、当該テキストデータに含まれる語句に関連付けられている画像を検索して出力することもできるように構成されている。
また、出力部112は、画像に関連付けて記憶されている語句に重み付けがされている場合には、当該重み付け情報を参照して、検索対象となった画像又はテキストデータから抽出された語句に対して高い重み付けがされている画像を優先して出力するようになっている。
【0030】
評価処理部113は、出力部112により出力された画像のうち、ある語句や単語に基づいて抽出した画像を、ユーザが所望の画像として選択した頻度に基づいて、各画像に対する各語句の重み付け、特徴量に対する重み付けを計算し、これを画像データベース104に記憶するようになっている。この頻度は、例えば、語句の出現頻度や、いくつかの語句が組になって出現する頻度を表す共起頻度に基づいて重み付けを行うことができる。
【0031】
次に、本発明にかかる検索画像登録方法の一実施形態について図7を参照して説明する。
図7において、まずユーザが情報処理装置1を使用して登録する画像データを入力すると、登録受付部105が画像の入力を受け付ける(S101)。
この登録される画像の一例を図8に示す。図8に示すように、入力されるデータは、画像データ1001と、この画像の内容を説明するテキストデータの説明文1002から構成されている。なお、入力データは、説明文1002が付加されている必要はなく、画像データ1001のみであってもよく任意である。また、画像に対する説明はビデオフレームに埋め込まれたテロップや音声も利用でき、これらをテキストデータに変換して同様な処理をすることができる。
なお、画像は前処理として量子化処理を行い、量子化されたデータを取り込むようにしてもよい。また、登録処理は、登録受付部105が所定の記憶媒体に記憶されている画像を読み取ることにより、またインターネット等の所定のネットワークを介して受け付けるようにしてもよく任意である。
【0032】
画像を受け付けると、オブジェクト抽出部106が入力画像中の特徴オブジェクトを抽出する(S102)。
この抽出処理は、オブジェクト抽出部106が、以下の式に基づいて計算を行い、オブジェクトの抽出をすることができる。
【0033】
【数1】
【0034】
ここで、Iは色特徴ベクトルのことであり、たとえば、HSV色データのベクトルを表す。また、x、yは画像中の画素の位置、tは拡散回数(計算の繰り返し数)、divは発散(divergence)、gradはガウス関数との畳み込みによる平滑化演算子を表す。この式に基づき、オブジェクト抽出部106が所定回数(t)拡散処理を行うことにより特徴的なオブジェクトを抽出することができる。
【0035】
なお、上述のc(x,y,t)は拡散率(伝導率)関数を表し、このアルゴリズムでの多変量色拡散の計算ではc(x,y,t)=1/{1+(‖grad{I}‖/K)2 }を用いることができる。そして、ここに示すKはテクスチャに依存する適応型伝導パラメータであり、これに基づいて拡散処理を制御(調整)するものであり、このパラメータ値は実験的に求めることができる。
【0036】
また、上記gradを計算するために、2つのピクセルPi,j,Pi+m,j+nの色差を、以下の式(2)に示すように定義することができる。ここで、添え字のmおよびnは、4方向の隣接ピクセルを表している。なお、w1 、w2 、w3 は重み定数である。
【0037】
【数2】
【0038】
そして、具体的なパラメータを求めるためには、まず、スケール(σ)パラメータに応じて決まるピクセル近傍でのきめの粗さを(texturedness)求め、求めたきめの粗さを評価し、所定のきめ粗さの条件(例えば、きめ粗さの閾値20%)に応じて、テクスチャあるいは色の勾配を求める処理を行う。このきめの粗さは、輪郭抽出した画像データ上の処理対象範囲内における輪郭となる画素の比率から求められる。なお、輪郭の抽出は、一次微分法、zero−cross法、スーベル法、キャニー法などの周知手段を用いることにより行う。
【0039】
そして、きめの粗さがの所定の閾値より大きい場合は、ピクセル近傍におけるアングル差及び色差(すなわち角および色の度数分布の差分)を、次の式(3)及び(4)により求め、テクスチャ勾配GTexture=W1 *D+W2 d1を計算し、適応型伝導パラメータK=f1(GTexture)を求める。この際、アングル差及び色差は、対象画素の四近傍周辺領域について算出して平滑化処理する。この四近傍周辺領域は、5×5、7×7というようなn×nサイズの画素領域を基本とし、対象画素領域において上下左右に四方向に隣接する周辺画素領域をいう。なお、W1 、W2 は重み定数である。
【0040】
【数3】
【0041】
【数4】
【0042】
ここで、式(3)中のIi、Jjは、アングルヒストグラムの値であり、角の度数分布について、各区画に含まれる度数の行列を表す。また、Aは行列で、その要素は2つの方向(角)の類似度であり、アングルヒストグラムの角度数に応じた類似度をテーブルとして定義している。また、Nはアングルヒストグラムの分割総数であり、ここでは10°刻みに分割した36を用いる。なお、アングルヒストグラムはテクスチャ特徴から画素においてエッジの角度に関するものであり、テクスチャ特性は、ウェーブレット・フィルタやガボール・フィルタなどで求めることができる。
【0043】
また、式(4)中のh及びgは、色を量子化して区画に分けた度数分布ヒストグラムであり、d1 は、その共通部分を表す。また、Mは色ヒストグラムの分割総数であり、ここではHSV色空間を72に分割したものを用いる。
【0044】
一方、このきめの粗さがの所定の閾値より小さい場合は、ピクセル近傍における色差を、前述の式(2)より色勾配GColor=d を計算し、適応型伝導パラメータK=f2(GColor)を求める。この際、色差は、対象画素の四近傍連接領域について算出して平滑化処理する。この四近傍連接領域とは、対象画素において上下左右の四方向に連接する連接画素領域をいう。
【0045】
このようにして、拡散パラメータである適応型伝導パラメータにより拡散処理率を制御し、きめの粗い部分を「不要な(noisy)」領域とみなし、境界を保存したまま拡散させることによりそのテクスチャを除去する。そして、最後に領域の拡大と併合を適用して特徴的なオブジェクトを抽出することができる。
【0046】
オブジェクトの抽出がされると、特徴量抽出部107が抽出したオブジェクトの特徴量を抽出する(S103)。
本実施形態では、特徴量抽出部107が、抽出したオブジェクトの色をHSV色空間に変換したり、ガボールフィルタによりテクスチャーを解析したり、オブジェクトの形状を抽出したりする。
【0047】
特徴量が抽出されると、単語推定部108が視覚分類辞書部101を参照して、抽出した特徴量から視覚的特徴を表す単語を推定して抽出する(S104)。
この処理は、例えば、単語推定部108が、特徴量としてHSVの値がそれぞれH(null)、S(0)、V(0)、であれば色テーブルを参照して対応する単語「黒」を抽出する。同様に、テクスチャのスポット、ストライプなどの特徴から対応するテクスチャ名を抽出し、また円、矩形などの形状の特徴量から対応する形状を抽出する。
【0048】
オブジェクトの特徴量に対応する単語が抽出されると、語句推定部109が、語彙辞書部102を参照してこれらの語句をその説明中に有している語句及びその語句のカテゴリを抽出する(S105)。
この処理は、例えば、語句推定部109が「ブラウン」、「スポット」、「サーキュラー」などの抽出された単語から、これら単語が語句の説明に使用されている語句として「cat」を抽出する。
なお、この際、登録対象画像の説明文などのテキストデータが付加された形で入力された場合には、語句推定部109は当該テキストデータから語句を抽出する。この語句の抽出は例えば、文法的に意味のある分節でテキストを区切ることにより抽出するようにしてもよい。
【0049】
そして、類義語推定部110が、類義語・類義カテゴリ辞書部103を参照して、抽出された語句の類義語及び類義カテゴリを推定する(S106)。
これにより、例えば、抽出された語句が「cat」であれば、それの類義語として「ジャガー」、「チーター」、「ライオン」が抽出され、カテゴリーとして「けもの」に類似するカテゴリとして「動物」のカテゴリが抽出される。
【0050】
この画像と単語、語句及びカテゴリー、類義語・類義カテゴリーの関係を図9に示す。図9に示すように、所定の画像1001に対して、まず推定された単語1003として色の特徴を表すブラウン、テクスチャの特徴を表すスポット、形状の特徴を表すサーキュラーが関連付けられる。そして、これら単語を含む語句として1004の「cat」が抽出される。さらに、その類義語として1005のジャガー、チーター、ライオンが関連付けられる。またカテゴリとして1006のけものが関連つけられ、その類義カテゴリーとして1007の動物が関連付けられるようになる。なお、図9中のカッコは画像中のオブジェクトに対する重み付けを表している。
【0051】
そして、類義語推定部110が、抽出された語句及びカテゴリ、類義語と類義カテゴリとを画像に関連付けて画像データベース104に登録して(S107)、処理を終了する。なお、この際、登録受付部105により付与した画像を識別する画像ID、オブジェクト抽出部106により特定したオブジェクトの領域ID、特徴量抽出部107により抽出した画像特徴量も画像データベース104に登録する。
【0052】
次に、登録された画像を検索する場合の処理の一例について図10を参照して説明する。
図10において、まず検索画面からユーザが検索画像を入力して検索要求を行うと、検索受付部111が画像検索要求を受付ける(S201)。
検索要求入力画面の一例を図11に示す。図11に示すように、検索対象の画像を入力する検索画像指定欄2001、また必要なキーワードなど画像を検索するためのテキストデータを入力するキーワード入力欄2002が設けられている。そして、これらに検索対象の画像又はキーワードを入力して検索ボタン2003がユーザにより指示されることにより検索要求がされるようになっている。
なお、検索の際のキーワードなどのテキストデータを入力するか否かは任意である。また、検索対象画像は所定のユーザが外部から量子化された画像データを取り込んで入力してもよいし、また予め用意された所定の量子化された画像の中から選択して入力してもよく任意である。
【0053】
画像検索要求を受け付けると、オブジェクト抽出部106が、上述のS102の処理と同様に検索対象画像中の特徴オブジェクトを抽出する(S202)。
【0054】
オブジェクトの抽出がされると、特徴量抽出部107が抽出したオブジェクトの特徴量を抽出する(S203)。本実施形態では、特徴量抽出部107が、抽出したオブジェクトの色をHSV色空間に変換したり、ガボールフィルタによりテクスチャーを解析したり、オブジェクトの形状を抽出してオブジェクトの視覚的特徴量を抽出する。
【0055】
特徴量が抽出されると、単語推定部108が視覚分類辞書部101を参照して、抽出した特徴量に対応する単語を推定して抽出する(S204)。この処理は、前述のS104の処理と同様に、例えば、単語推定部108は、特徴量としてHSVの値がそれぞれH(null)、S(0)、V(0)、であれば色テーブルを参照して対応する単語「黒」を抽出する。同様に、テクスチャのスポット、ストライプなどの特徴から対応するテクスチャ名を抽出し、また円、矩形などの特徴から対応する形状を抽出する。
【0056】
視覚特徴量に関連する単語が抽出されると、語句推定部109が、語彙辞書部102を参照してこれらの単語をその説明中に有している語句及びその語句のカテゴリを抽出する(S205)。
【0057】
語句が抽出されると、類義語推定部110が、前述のS106の処理と同様に、類義語・類義カテゴリ辞書部103を参照して、抽出された語句の類義語及び類義カテゴリを抽出する(S206)。
【0058】
そして出力部112が、画像データベース104を参照して、抽出した語句及びカテゴリ、類義語及び類義カテゴリに関連付けられている画像を抽出する(S207)。
この抽出処理は、まず出力部112が、画像データベース104の画像の説明を参照して、説明の中に当該語句を含みかつ同じカテゴリに属する画像を抽出する。同様に、出力部112が、説明の中に類義語を含みかつ類義カテゴリに属する画像を抽出する。また、説明中に当該語句を含みかつ類義カテゴリに属する画像を抽出したり、説明中に類義語を含みかつ同じカテゴリーに属する画像を抽出したりしてもよい。これらの処理を行うことにより出力部112が1又は複数の選択候補画像を抽出する。
【0059】
出力部112は、抽出した1又は複数の画像を所定のディスプレイなどに認識可能な形態で出力し、ユーザに対して所望の画像を選択するよう要求する(S208)。画像を出力した際の一例を図12に示す。図12に示すように、検索結果画面上には、数枚の画像が表示され、そのうちからユーザが意図する画像を選択できるようになっている。出力を行う際、出力部112は、画像に対する語句の重み付けに基づいて、検索要求された画像に近いと判断された画像、即ち抽出された語句、カテゴリに対する重み付けが高い順に画像を優先的に表示する。
そして、ユーザは所望の画像がない場合には、次の画像の候補を要求することで、出力部112は次に重み付けが高く優先度が高い画像を表示し、ユーザからの選択を待つようにしてもよい。
【0060】
ユーザが意図する画像をポインティングデバイスなどで指示するなどして選択すると、出力部112は当該画像のみをディスプレイ等に表示する(S209)。
これにより、ユーザは選択した画像を参照したり、ダウンロードしたりして利用することができるようになる。
【0061】
また、評価処理部113は、ユーザにより画像が選択されたことにより、画像データベース104に記憶されている当該画像に対する語句及びカテゴリの重み付けを更新し、今回の選択結果を重み付けにフィードバックして(S210)、処理を終了する。
このフィードバックは、例えば、当該画像を検索するに当たって「cat」という語句を抽出した場合には、当該画像に対する「cat」の重み付けを加算することにより行う。なお、この重み付けの計算は、当該画像が選択された全回数のうち当該語句が抽出された割合、当該語句に基づいて画像が抽出され、ユーザに選択された頻度などに応じて計算しても良く任意である。
【0062】
以上のように、本実施形態によれば、検索用画像を登録する際、オブジェクト抽出部106により登録する画像中の特徴的なオブジェクトを抽出し、特徴量抽出部107が抽出されたオブジェクトの視覚的特徴を抽出し、単語推定部108が視覚分類辞書部101を参照して抽出したオブジェクトの視覚的特徴に対応する単語を抽出し、語句推定部109が語彙辞書部102を参照して抽出した単語に関連付けられている語句を抽出して、画像データベース104に当該語句とオブジェクトを含む画像とを関連付けて記憶するようにしたことから、画像が含んでいるオブジェクトにより関連性が深い語句を画像と対応付けてデータベース化することができる。
これにより、この画像データベース104を参照することにより、ユーザが特定した語句に基づいた画像の検索が容易にできるようになる。特に、オブジェクトの視覚的特徴を表す単語の検索と、当該単語に関連した意味を有する語句の検索の2段階を行って語句を抽出したことにより、オブジェクトの視覚的特徴を反映させ、かつ、オブジェクトの意味に関連する語句を画像に関連付けることができ、これによりユーザの意図に合った画像の検索が可能となる。
【0063】
また、類義語推定部110により抽出された語句の類義語及び/又は当該語句が属する類義カテゴリを検索し、画像データベース104に画像に関連付けて検索された類義語及び/又は類義カテゴリを更に記憶するようにしたことから、画像を一つの語句やカテゴリーだけでなく、類義語や類義カテゴリとも関連付けることができ、検索を行う際の幅を広げることでユーザが意図する画像を容易に検索するための画像データベースの作成が可能となる。
【0064】
また、登録受付部105が、登録対象の画像に付加されている当該画像に関連した内容を有する説明文などのテキストデータを受け付け、語句推定部109が受け付けたテキストデータに含まれる語句を抽出するようにしたことから、もともと画像に関連の深い画像の説明文などのテキストデータの内容を反映することができ、よりユーザの意図に適した検索が可能となるデータベースを作成できる。
【0065】
また、画像を検索する際、検索受付部111により検索対象となる検索対象画像の入力を受付け、オブジェクト抽出部106が当該画像中の特徴的なオブジェクトを抽出し、特徴量抽出部107が抽出されたオブジェクトの視覚的特徴を抽出し、単語推定部108が視覚分類辞書部101を参照して抽出されたオブジェクトの視覚的特徴に対応する単語を抽出し、語句推定部109が語彙辞書部102を参照して抽出した単語に関連付けられている語句を抽出し、出力部112が画像データベース104を参照して、抽出された語句に関連付けられている画像を検索して出力するようにしたことから、検索対象画像に基づいてユーザが意図する関連画像を簡単に検索することができる。
これにより、ユーザが意図した関連する画像の検索が容易にできるようになる。特に、オブジェクトの視覚的特徴を表す単語の検索と、当該単語に関連する語句の検索の2段階を画像検索に取り入れたことで、オブジェクトの視覚的特徴を反映させ、かつ、オブジェクトの意味に関連する語句を関連付けることができユーザの意図に合った画像の検索が可能となる。
【0066】
また、検索受付部111が検索対象となるテキストデータを受け付け、出力部112が抽出された語句及びテキストデータに含まれる語句に関連付けられている画像を検索して出力するようにすれば、予め検索対象画像に関連付けられている説明文などのテキストデータを利用してよりユーザの意図に適合した精度の高い画像検索をすることができる。
【0067】
また、評価処理部113が出力された画像のうちユーザにより所望の画像として選択された割合又は頻度に基づいて、当該画像に対する語句の検索重み付けを行い、画像に関連付けてこの語句ごとの重み付けを画像データベース104に記憶するようにし、出力部112がこの重み付けを参照して、入力された語句の重み付けが高い画像を優先して出力するようにすれば、ユーザによるフィードバックを反映して、ユーザの意図する画像をより優先的に検索出力することができる。
【0068】
なお、上述の実施形態では、類義語や類義カテゴリまで検索する例について説明したが、類義語や類義カテゴリまで検索する必要がない場合にはこれを行わなくともよい。また、語句又はカテゴリのいずれか一方のみ用いるようにしてもよい。
【0069】
また、上述の実施形態では、画像に基づく検索の例について説明したが、画像を用いずにテキストデータのみに基づいて画像検索を行うようにしてもよい。
【0070】
本実施形態の情報処理装置1用のコンピュータプログラムを、コンピュータ読み取り可能な媒体(FD、CD−ROM等)に格納して配布してもよいし、搬送波に重畳し、通信ネットワークを介して配信することも可能である。
【0071】
【発明の効果】
本発明によれば、ユーザが意図する画像を簡単に検索ができる。
【図面の簡単な説明】
【図1】本発明にかかる検索情報登録装置及び情報検索装置を適用した情報処理装置の一実施形態を示した機能ブロック図。
【図2】本実施形態にかかる視覚分類辞書部の色テーブルに記憶されるデータの一例を示した図。
【図3】本実施形態にかかる視覚分類辞書部のテクスチャーテーブルに記憶されるデータの一例を示した図。
【図4】本実施形態にかかる視覚分類辞書部の形状テーブルに記憶されるデータの一例を示した図。
【図5】本実施形態にかかる語彙辞書部に記憶されるデータの一例を示した図。
【図6】本実施形態にかかる画像データベースに記憶されるデータの一例を示した図。
【図7】本実施形態にかかる画像登録処理の流れを示した処理フロー。
【図8】本実施形態にかかる登録画像の一例を示した図。
【図9】本実施形態にかかる画像と単語、語句、カテゴリー、類義語、類義カテゴリーの関連を示した模式図。
【図10】本実施形態にかかる画像検索処理の流れを示した処理フロー。
【図11】本実施形態にかかる検索画像の入力画面の一例を示した図。
【図12】本実施形態にかかる検索結果出力画面の一例を示した図。
【符号の説明】
1 情報処理装置
101 視覚分類辞書部
102 語彙辞書部
103 類義語・類義カテゴリー記憶部
104 画像データベース
105 登録受付部
106 オブジェクト抽出部
107 特徴量抽出部
108 単語推定部
109 語句推定部
110 類義語推定部
111 検索受付部
112 出力部
113 評価処理部[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a technique for creating an information search and a database for information search, and more particularly to a technique suitable for searching for an image.
[0002]
[Prior art]
Conventionally, when a desired image is extracted from an image database storing a plurality of images, a feature of an image to be searched is specified by some method, and a search is performed based on the feature. As an example, since a person often uses words to express a desired image, it has been performed to express an image in words and create a database as text information for searching. In addition, since the expression of the features of the image is insufficient in the text, the feature amount of the image is extracted, and the database is used to search for the image.
Furthermore, in order to enable an image search that matches the user's intention to search, a method of using the latent meaning of the image as an index, a statistical modeling of the entire image by a two-dimensional MHMM, a statistical learning by an EM Various methods have been proposed, such as application of identification and identification, and association of concepts with Hopfield networks.
[0003]
As an example of this, a description based on the meaning and recognition of an image to be searched is received from a user, a semantic search such as a keyword is performed, and a similar image search is performed based on a morphological or spatial relationship between components. And a method of ranking search results based on similarity criteria and providing the results to users (for example, Patent Document 1).
Another method is to analyze a predetermined area of the image data, assign a feature amount such as a color, texture, and size of the area as an attribute, and create data representing a phase relationship between the areas. It has been proposed that the object, the relative position of the object and the phase relation of the object be extracted as a keyword by substituting the object from the topological relationship between the regions, and the keyword be registered together with the image data (for example, Patent Document 2).
[0004]
[Patent Document 1]
JP-A-10-240771
[Patent Document 2]
JP-A-10-49542
[0005]
[Problems to be solved by the invention]
However, in the conventional semantic-based image retrieval system, the model for evaluating the degree of similarity mostly depends on only the objective attributes of the visual attributes such as objects.
For this reason, there is a problem that the subjective similarity of an image that the user feels in a certain situation often differs from the subjective similarity, and a so-called semantic gap occurs. And because of this semantic gap, for example, even when searching for images of the same animal, images of a lion sitting, images of a lion facing right, images of a running lion would be All of them are related to the same word "lion", so when a user tries to search for images of sleeping lions, all images of lions are extracted or users such as images of running lions There is a problem that an unintended image is preferentially selected. For this reason, even if an attempt is made to search for an image based on the user's subjective intention from a large number of images, it is very difficult to search for the intended image.
[0006]
In addition to searching for an image related to a certain image in addition to searching for an image based on text, there are various ways of capturing and feeling the image depending on the user. Therefore, words associated with the same image differ depending on the user, and it is very difficult to search for an image related to the image based on a certain image.
[0007]
SUMMARY An advantage of some aspects of the invention is to provide a mechanism that allows a user to easily search for an image intended by a user.
[0008]
[Means for Solving the Problems]
In order to solve the above-mentioned problem, the present invention achieves a higher level of search by incorporating a two-stage search of a word representing a visual feature of an object in an image and a search for a phrase having a meaning related to the word. Provide a mechanism that can search with accuracy.
As an example of a mechanism for this, a search information registration device according to the present invention includes a registration reception unit that receives input of data of an image to be registered, an object extraction unit that extracts an object in the received image, Referring to the feature extracting means for extracting the visual feature, the first storing means for storing the visual feature of the object in the image in association with the word representing the visual feature, and the first storing means, Word extraction means for extracting a word corresponding to the visual feature of the extracted object; second storage means for storing a phrase representing a semantic concept in association with a word representing the visual characteristic; and the second storage Means for extracting a phrase associated with a word representing the visual feature of the object, and extracting the extracted phrase And having a third storage means for storing as search information in association with an image including the object.
[0009]
Further, referring to the synonym / synonym category storage means for storing synonyms of the word and the synonym category of the category to which the word belongs, and referring to the synonym / synonym category storage means, the synonym of the extracted word and the synonym to which the word belongs The apparatus may further include a synonym search unit that searches for a synonym category, and the third storage unit may further store a synonym and a synonym category searched in association with the object image.
[0010]
Further, the registration accepting unit may further accept text data having a content related to the image to be registered, which is added to the image to be registered, and the phrase extracting unit may further extract a phrase included in the accepted text data. It may be.
[0011]
The second storage unit further stores a category of the phrase in association with the phrase. The phrase extraction unit further extracts a category to which the extracted phrase belongs, and stores the category in the third storage unit. You may make it memorize | store.
The visual characteristics of the object may be specified by the color, texture, and shape of the object.
Further, the word extracting unit may extract a plurality of words, and the phrase extracting unit may extract a plurality of phrases for one object.
[0012]
An information search device according to one aspect of the present invention includes a search receiving unit that receives an input of a search image to be searched, an object extracting unit that extracts an object from the received search image, and a visual feature of the extracted object. Extracting a word corresponding to the extracted visual feature with reference to the first storing unit, the first storing unit storing a word representing the visual feature of the image, Word extracting means, second storage means for storing words representing the meaning concept and words representing the visual characteristics in association with each other, and storing images in association with the words related to the images and the category to which the words belong. With reference to the third storage unit and the second storage unit, one or a plurality of phrases associated with the words representing the visual characteristics of the search image are extracted. A phrase extraction means, with reference to the third storage means, and having a search output means for searching the image associated with the one or more words of the extracted.
[0013]
The receiving means further receives text data relating to an image to be searched, and the search output means refers to the third storage means and is included in the words and phrases extracted by the word and phrase extracting means and the text data. An image associated with a phrase may be searched for and output.
[0014]
The image processing apparatus further includes an evaluation unit that weights a phrase and a category associated with the image based on a ratio or a frequency selected by a user among the output images, and the third storage unit includes: The weighting of each word and each category with respect to the image evaluated by the evaluation means is stored, and the image search output means preferentially searches and outputs an image in which the weight of the words and categories extracted with reference to the weight is high. You may do so.
[0015]
A search information registration method according to one aspect of the present invention includes a first storage unit that stores a word that represents a visual feature of an object in an image, a word that represents a semantic concept, and a word that represents the visual feature. A second storage means for storing in association with a computer, wherein the computer extracts an object in the registration target image; and extracts a visual feature of the object. Extracting a word corresponding to the visual characteristic of the extracted object with reference to the first storage means, and associating the word with the word representing the visual characteristic of the object with reference to the second storage means Extracting the extracted phrase, and storing the extracted phrase in the third storage unit in association with the image including the object. It is characterized in.
[0016]
Further, as the information retrieval method, a first storage means for storing a word representing a visual feature of an image, a second storage means for storing a word representing a semantic concept and a word representing the visual feature in association with each other, A method executed by a computer having a third storage unit that stores the word and an image related to the word in association with each other, wherein the computer receives an input of a search image to be searched, Extracting an object from the retrieved search image, extracting a visual feature of the extracted object, and extracting a word corresponding to the extracted visual feature by referring to the first storage means. Referring to the second storage means to extract one or a plurality of phrases associated with words representing visual characteristics of the search image. And-up, with reference to the third storage means, it may be performed and outputting searching for images that are associated with one or more words of the extracted.
[0017]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, an embodiment of a search information registration apparatus and an apparatus to which an information search apparatus according to the present invention is applied will be described with reference to the drawings. FIG. 1 shows an example of the overall configuration of an
The
The functional blocks shown in FIG. 1 include a visual
[0018]
The visual
[0019]
As shown in FIG. 2, the color table is a table in which each color is represented by an HSV (Hue Saturation Value) color space. In FIG. 2, H indicates hue (Hue), S indicates saturation (Saturation), and V indicates lightness (Value). For example, in the case of black, H is “null”, S and V are each 0, and each value of HSV is defined for each color. These values are defined based on the HSV color space.
As shown in FIG. 3, the texture table is defined by analyzing whether there is a pattern such as a spot or a stripe for each texture. In this texture analysis, for example, a table can be created based on the result of analyzing each texture by a Gabor filter.
As shown in FIG. 4, the shape table defines, for each shape such as a circle, a rectangle, a triangle, and the like, characteristic amounts of a curvature, a circulation, an invariant moment, and a differential inverses representing the features.
[0020]
The
The category is obtained by classifying the phrase based on a predetermined criterion. For example, a category such as “best” or “animal” corresponds to “cat”. The explanation is text data for explaining the concept of the meaning of a word, and one or more words such as colors, textures, and shapes representing visual features are included in the explanation.
[0021]
The synonym / synonym
[0022]
The
The feature amount of the object is the feature amount of the object calculated by the feature
The feature amount weighting values indicate the weighting of each color, texture, and shape of the object. In FIG. 6, c indicates the color, t indicates the texture, and s indicates the weighting value of the shape.
Further, the synonym weighting value is a value indicating the degree of relevance of each synonym with the object of the image. In the example of FIG. 6, jaguar is 0.8 and cheetah is .0 in order from the left. For example, 7 is stored in association with each synonym, and the larger the value, the higher the relevance. Similarly, for the categories, category weight values correspond to the respective categories. In the illustrated example, the weights are set such that “creation” is 0.9 and “animal” is 0.7.
[0023]
The
The object extraction is performed by, for example, applying a multi-scale inhomogeneous color diffusion algorithm to the
[0024]
The feature
[0025]
The
[0026]
The
When the
Further, the
[0027]
The
For synonym and synonym category search, synonyms and synonym categories can be extracted each time a synonym of a phrase is referred to by referring to the synonym / synonym
[0028]
The search receiving unit 111 performs a process of receiving an image search request from a user. In receiving the search request, a predetermined search request input screen can be displayed on a predetermined display so that an image or the like to be searched can be input from the bottom.
The image search request may be, for example, any of an image search request using text data using words, a request for searching for a related image based on predetermined image data, and a request for searching for a related image based on image data and text data.
[0029]
The
Further, when a search request including text data is received as a search request, the
In addition, when the words stored in association with the image are weighted, the
[0030]
The
[0031]
Next, an embodiment of a search image registration method according to the present invention will be described with reference to FIG.
In FIG. 7, first, when the user inputs image data to be registered using the
FIG. 8 shows an example of the registered image. As shown in FIG. 8, the input data is composed of
It should be noted that the image may be subjected to a quantization process as pre-processing, and the quantized data may be imported. The registration process may be performed by the
[0032]
When receiving the image, the
In this extraction process, the
[0033]
(Equation 1)
[0034]
Here, I is a color feature vector, and represents, for example, a vector of HSV color data. Also, x and y are pixel positions in the image, t is the number of times of diffusion (the number of repetitions of calculation), div is divergence, and grad is a smoothing operator by convolution with a Gaussian function. Based on this equation, the
[0035]
Note that c (x, y, t) described above represents a diffusion rate (conductivity) function, and c (x, y, t) = 1 / {1+ (‖grad) in multivariate color diffusion calculation by this algorithm. {I} / K)2 } Can be used. K shown here is an adaptive conduction parameter that depends on the texture, and controls (adjusts) the diffusion process based on the parameter. The parameter value can be obtained experimentally.
[0036]
To calculate the grad, two pixels Pi, j, Pi + m, j + nCan be defined as shown in the following equation (2). Here, the subscripts m and n represent adjacent pixels in four directions. Note that w1 , W2 , W3 Is a weight constant.
[0037]
(Equation 2)
[0038]
Then, in order to obtain specific parameters, first, the texture roughness in the vicinity of the pixel determined according to the scale (σ) parameter is determined (textureness), the obtained texture roughness is evaluated, and the predetermined texture is determined. A process for obtaining a texture or color gradient is performed according to a roughness condition (for example, a texture roughness threshold of 20%). The roughness of the texture is obtained from the ratio of pixels forming the contour within the processing target range on the contour-extracted image data. The contour is extracted by using well-known means such as the first derivative method, the zero-cross method, the Sobel method, and the Canny method.
[0039]
If the roughness is larger than a predetermined threshold, the angle difference and the color difference in the vicinity of the pixel (that is, the difference between the frequency distribution of the corner and the color) are obtained by the following equations (3) and (4), and the texture is obtained. Gradient GTexture= W1 * D + W2 d1, And the adaptive conduction parameter K = f1(GTexture). At this time, the angle difference and the color difference are calculated with respect to the four neighboring areas of the target pixel and smoothed. The four neighboring peripheral regions are basically pixel regions of n × n size such as 5 × 5 and 7 × 7, and are peripheral pixel regions adjacent to the target pixel region in four directions, up, down, left, and right. Note that W1 , W2 Is a weight constant.
[0040]
(Equation 3)
[0041]
(Equation 4)
[0042]
Here, I in the equation (3)i, JjIs a value of an angle histogram, and represents a matrix of frequencies included in each section with respect to a frequency distribution of angles. A is a matrix, whose elements are similarities in two directions (corners), and defines a similarity according to the number of angles of the angle histogram as a table. N is the total number of divisions of the angle histogram, and here, 36 divided by 10 ° is used. Note that the angle histogram relates to the angle of an edge in a pixel from a texture feature, and the texture property can be obtained by a wavelet filter, a Gabor filter, or the like.
[0043]
H and g in the equation (4) are frequency distribution histograms obtained by quantizing a color and dividing the color into sections, and d1 Represents the common part. M is the total number of divisions of the color histogram. Here, a value obtained by dividing the HSV color space into 72 is used.
[0044]
On the other hand, if the roughness is smaller than the predetermined threshold value, the color difference in the vicinity of the pixel is calculated using the color gradient G according to the above equation (2).Color= D , And the adaptive conduction parameter K = f2(GColor). At this time, the color difference is calculated for a four-neighbor connection region of the target pixel and subjected to smoothing processing. The four-neighbor connection region refers to a connection pixel region connected in four directions of up, down, left, and right in the target pixel.
[0045]
In this manner, the diffusion processing rate is controlled by the adaptive conduction parameter, which is a diffusion parameter, and the rough portion is regarded as an “noisy” region, and the texture is removed by diffusing the boundary while preserving the boundary. I do. Finally, a characteristic object can be extracted by applying area enlargement and merging.
[0046]
When the object is extracted, the feature
In the present embodiment, the feature
[0047]
When the feature amount is extracted, the
In this process, for example, if the HSV values are H (null), S (0), and V (0) as the feature amounts, the
[0048]
When the word corresponding to the feature amount of the object is extracted, the
In this process, for example, the
At this time, when text data such as a description of the registration target image is input, the
[0049]
Then, the
Thus, for example, if the extracted phrase is “cat”, “jaguar”, “cheetah”, and “lion” are extracted as synonyms thereof, and the category “animal” is similar to the category “kemono” Are extracted.
[0050]
FIG. 9 shows the relationship between this image, words, phrases and categories, and synonyms and synonyms. As shown in FIG. 9, a
[0051]
Then, the
[0052]
Next, an example of a process for searching for a registered image will be described with reference to FIG.
In FIG. 10, first, when a user inputs a search image from the search screen and makes a search request, the search receiving unit 111 receives the image search request (S201).
FIG. 11 shows an example of the search request input screen. As shown in FIG. 11, a search
Whether or not to input text data such as a keyword at the time of a search is optional. In addition, the search target image may be input by a predetermined user by taking in quantized image data from the outside, or by selecting and inputting from a predetermined quantized image prepared in advance. Well optional.
[0053]
Upon receiving the image search request, the
[0054]
When the object is extracted, the feature
[0055]
When the feature amount is extracted, the
[0056]
When words related to the visual feature are extracted, the
[0057]
When the phrase is extracted, the
[0058]
Then, the
In this extraction processing, first, the
[0059]
The
Then, when the user does not have the desired image, the
[0060]
When the user selects an intended image by instructing with a pointing device or the like, the
As a result, the user can refer to or download the selected image and use it.
[0061]
In addition, when the user selects an image, the
This feedback is performed, for example, by adding the weight of “cat” to the image when the word “cat” is extracted in searching for the image. In addition, the calculation of the weighting may be performed based on the ratio of the extraction of the phrase out of the total number of times the image is selected, the image extraction based on the phrase, and the frequency selected by the user. Well optional.
[0062]
As described above, according to the present embodiment, when a search image is registered, a characteristic object in the image to be registered is extracted by the
Thus, by referring to the
[0063]
Further, a synonym of the phrase extracted by the
[0064]
Further, the
[0065]
When searching for an image, the search receiving unit 111 receives an input of a search target image to be searched, the
This makes it possible to easily search for a related image intended by the user. In particular, the two steps of searching for words that represent the visual characteristics of the object and searching for phrases related to the word are incorporated into the image search, so that the visual characteristics of the object are reflected and the meaning related to the meaning of the object is reflected. This makes it possible to search for an image that matches the user's intention.
[0066]
In addition, if the search receiving unit 111 receives text data to be searched, and the
[0067]
In addition, the
[0068]
In the above-described embodiment, an example in which synonyms and synonymous categories are searched has been described. However, when it is not necessary to search for synonyms and synonymous categories, this need not be performed. Alternatively, only one of a word and a category may be used.
[0069]
Further, in the above-described embodiment, an example of a search based on an image has been described. However, an image search may be performed based on only text data without using an image.
[0070]
The computer program for the
[0071]
【The invention's effect】
According to the present invention, an image intended by a user can be easily searched.
[Brief description of the drawings]
FIG. 1 is a functional block diagram showing an embodiment of a search information registration device and an information processing device to which the information search device is applied according to the present invention.
FIG. 2 is an exemplary view showing an example of data stored in a color table of a visual classification dictionary unit according to the embodiment;
FIG. 3 is an exemplary view showing an example of data stored in a texture table of the visual classification dictionary unit according to the embodiment;
FIG. 4 is an exemplary view showing an example of data stored in a shape table of the visual classification dictionary unit according to the embodiment;
FIG. 5 is a view showing an example of data stored in a vocabulary dictionary unit according to the embodiment.
FIG. 6 is a view showing an example of data stored in an image database according to the embodiment.
FIG. 7 is a processing flow showing a flow of an image registration processing according to the embodiment;
FIG. 8 is a view showing an example of a registered image according to the embodiment.
FIG. 9 is a schematic diagram showing the relationship between images and words, phrases, categories, synonyms, and synonymous categories according to the embodiment.
FIG. 10 is a processing flow showing a flow of an image search processing according to the embodiment;
FIG. 11 is an exemplary view showing an example of a search image input screen according to the embodiment;
FIG. 12 is an exemplary view showing an example of a search result output screen according to the embodiment.
[Explanation of symbols]
1 Information processing device
101 Visual Classification Dictionary
102 Vocabulary dictionary
103 Synonym / Synonym Category Storage
104 Image Database
105 Registration reception unit
106 Object extractor
107 Feature Extraction Unit
108 Word Estimator
109 Phrase Estimation Unit
110 Synonym Estimation Unit
111 search reception section
112 output unit
113 Evaluation Processing Unit
Claims (7)
受け付けた画像中のオブジェクトを抽出するオブジェクト抽出手段と、
当該オブジェクトの視覚的特徴を抽出する特徴抽出手段と、
画像中のオブジェクトの視覚的特徴と当該視覚的特徴を表す単語を関連付けて記憶する第1の記憶手段と、
上記第1の記憶手段を参照して、抽出したオブジェクトの視覚的特徴に対応する単語を抽出する単語抽出手段と、
意味概念をあらわす語句と上記視覚的特徴をあらわす単語とを関連付けて記憶する第2の記憶手段と、
上記第2の記憶手段を参照して、上記オブジェクトの視覚的特徴を表す単語に関連付けられている語句を抽出する語句抽出手段と、
抽出された語句を上記オブジェクトを含む画像と関連付けて検索情報として記憶する第3の記憶手段と、
を有することを特徴とする検索情報登録装置。A registration accepting unit for accepting input of image data to be registered;
Object extraction means for extracting an object in the received image;
Feature extracting means for extracting visual features of the object;
First storage means for storing a visual feature of an object in an image and a word representing the visual feature in association with each other;
Word extracting means for extracting a word corresponding to the visual feature of the extracted object with reference to the first storage means;
Second storage means for storing a phrase representing a semantic concept and a word representing the visual feature in association with each other;
A phrase extraction unit for extracting a phrase associated with a word representing a visual feature of the object with reference to the second storage unit;
Third storage means for storing the extracted phrase as search information in association with the image including the object,
A search information registration device, comprising:
類義語・類義カテゴリ記憶手段を参照して、上記抽出された語句の類義語及び当該語句が属する類義カテゴリを検索する類義語検索手段を更に有し、
上記第3の記憶手段は、上記オブジェクト画像に関連付けて検索された類義語及び類義カテゴリを更に記憶する、
請求項1記載の検索情報登録装置。Synonym and synonym category storage means for storing synonyms of the phrase and synonyms of the category to which the phrase belongs;
Referring to the synonym / synonym category storage means, further comprising synonym search means for searching for synonyms of the extracted phrase and the synonym category to which the phrase belongs,
The third storage unit further stores a synonym and a synonym category searched for in association with the object image.
The search information registration device according to claim 1.
上記語句抽出手段は、上記受け付けたテキストデータに含まれる語句を更に抽出する、
請求項1又は2記載の検索情報登録装置。The registration accepting unit further accepts text data having a content related to the image added to the image to be registered,
The phrase extracting means further extracts a phrase included in the received text data;
The search information registration device according to claim 1.
受け付けた検索画像からオブジェクトを抽出するオブジェクト抽出手段と、
抽出されたオブジェクトの視覚的特徴を抽出する視覚的特徴抽出手段と、
画像の視覚的特徴を表す単語を記憶する第1の記憶手段と、
上記第1の記憶手段を参照して、抽出した視覚的特徴に対応する単語を抽出する単語抽出手段と、
意味概念をあらわす語句と上記視覚的特徴をあらわす単語を関連付けて記憶する第2の記憶手段と、
オブジェクトを含む画像と当該オブジェクトに関連する語句及び当該語句が属するカテゴリとを関連付けて記憶する第3の記憶手段と、
上記第2の記憶手段を参照して、上記検索画像の視覚的特徴を表す単語に関連付けられている1又は複数の語句を抽出する語句抽出手段と、
上記第3の記憶手段を参照して、上記抽出された1又は複数の語句に関連付けられている画像を検索して出力する検索出力手段と、
を有することを特徴とする情報検索装置。Search accepting means for accepting an input of a search image to be searched;
Object extracting means for extracting an object from the received search image;
Visual feature extracting means for extracting visual features of the extracted object;
First storage means for storing words representing visual features of the image;
Word extraction means for extracting a word corresponding to the extracted visual feature with reference to the first storage means;
Second storage means for storing a phrase representing a semantic concept and a word representing the visual feature in association with each other;
Third storage means for storing an image including the object, a phrase related to the object, and a category to which the phrase belongs in association with each other;
A phrase extracting unit that extracts one or a plurality of phrases associated with a word representing a visual feature of the search image with reference to the second storage unit;
A search output unit that searches for and outputs an image associated with the extracted one or more phrases with reference to the third storage unit;
An information retrieval device, comprising:
上記検索出力手段は、上記第3の記憶手段を参照して、上記語句抽出手段により抽出された語句及び上記テキストデータに含まれる語句に関連付けられている画像を検索して出力する、
請求項4記載の情報検索装置。The receiving means further receives text data on an image to be searched,
The search output unit refers to the third storage unit, searches and outputs an image associated with the phrase extracted by the phrase extraction unit and the phrase included in the text data,
The information retrieval device according to claim 4.
上記第3の記憶手段には、評価手段により評価された画像に対する各語句及び各カテゴリの重み付けを記憶し、
上記画像検索出力手段は、上記重み付けを参照して抽出された語句及びカテゴリの重み付けが高い画像を優先して検索出力する、
請求項4又は5記載の情報検索装置。Among the output images, the image processing apparatus further includes an evaluation unit that weights a phrase and a category associated with the image based on the ratio or frequency selected by the user,
The third storage means stores the weight of each word and each category for the image evaluated by the evaluation means,
The image search and output unit preferentially searches for and outputs an image having a high weight of a word and a category extracted with reference to the weight,
The information retrieval device according to claim 4.
上記コンピュータが、
登録対象画像のデータを受け付けるステップと、
上記登録対象画像中のオブジェクトを抽出するステップと、
上記抽出されたオブジェクトの視覚的特徴を抽出するステップと、
上記第1の記憶手段を参照して、抽出されたオブジェクトの視覚的特徴に対応する単語を抽出するステップと、
上記第2の記憶手段を参照して、上記オブジェクトの視覚的特徴を表す単語に関連付けられている語句を抽出し、抽出した語句を上記オブジェクトを含む画像と関連付けて第3の記憶手段に記憶するステップと、
を行うことを特徴とする検索情報登録方法。A computer having first storage means for storing a word representing a visual feature of an object in an image and second storage means for storing a phrase representing a semantic concept and a word representing the visual feature in association with each other. The method to be performed,
The above computer is
Receiving data of the image to be registered;
Extracting an object in the registration target image;
Extracting visual features of the extracted object;
Extracting a word corresponding to the visual feature of the extracted object with reference to the first storage means;
With reference to the second storage unit, a phrase associated with a word representing a visual feature of the object is extracted, and the extracted phrase is stored in the third storage unit in association with an image including the object. Steps and
Search information registration method characterized by performing the following.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003160624A JP2004362314A (en) | 2003-06-05 | 2003-06-05 | Search information registration device, information search device, search information registration method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003160624A JP2004362314A (en) | 2003-06-05 | 2003-06-05 | Search information registration device, information search device, search information registration method |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2004362314A true JP2004362314A (en) | 2004-12-24 |
Family
ID=34053352
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2003160624A Pending JP2004362314A (en) | 2003-06-05 | 2003-06-05 | Search information registration device, information search device, search information registration method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2004362314A (en) |
Cited By (17)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007304738A (en) * | 2006-05-10 | 2007-11-22 | Viva Computer Co Ltd | Image storage / retrieval system, image storage device, image search device and program for the same |
| JP2008165303A (en) * | 2006-12-27 | 2008-07-17 | Fujifilm Corp | Content registration apparatus, content registration method, and content registration program |
| JP2008171299A (en) * | 2007-01-15 | 2008-07-24 | Fujifilm Corp | Content search device, content registration device and method |
| JP2008269557A (en) * | 2007-03-26 | 2008-11-06 | Seiko Epson Corp | Image search apparatus and image search method |
| JP2009523059A (en) * | 2006-01-11 | 2009-06-18 | ボストン サイエンティフィック サイムド,インコーポレイテッド | Medical image search |
| JP2010072699A (en) * | 2008-09-16 | 2010-04-02 | Nikon Corp | Image classification device and image processing device |
| JP2010176479A (en) * | 2009-01-30 | 2010-08-12 | Fujifilm Corp | Image keyword appending apparatus, image search device and method of controlling them |
| JP2010224901A (en) * | 2009-03-24 | 2010-10-07 | Nec Casio Mobile Communications Ltd | Terminal device and program |
| WO2011065236A1 (en) * | 2009-11-25 | 2011-06-03 | Kddi株式会社 | Secondary content provision system and method |
| WO2013175608A1 (en) * | 2012-05-24 | 2013-11-28 | 株式会社日立製作所 | Image analysis device, image analysis system, and image analysis method |
| JP2015049748A (en) * | 2013-09-02 | 2015-03-16 | 日本電信電話株式会社 | Image processing apparatus, image processing method and image processing program |
| WO2015114785A1 (en) * | 2014-01-30 | 2015-08-06 | 楽天株式会社 | Attribute display system, attribute display method, and attribute display program |
| JP2016529611A (en) * | 2013-07-31 | 2016-09-23 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | Method and system for retrieving images |
| JP2016218652A (en) * | 2015-05-19 | 2016-12-22 | シャープ株式会社 | Display device, information processing program, and information processing method |
| JP2018112806A (en) * | 2017-01-10 | 2018-07-19 | 大日本印刷株式会社 | Image associating apparatus, image database, image retrieval apparatus, image retrieval system and program |
| JP2020035092A (en) * | 2018-08-28 | 2020-03-05 | 株式会社豊田中央研究所 | Environment digitizing device |
| WO2022091299A1 (en) * | 2020-10-29 | 2022-05-05 | 日本電気株式会社 | Search device, search method, and recording medium |
-
2003
- 2003-06-05 JP JP2003160624A patent/JP2004362314A/en active Pending
Cited By (23)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009523059A (en) * | 2006-01-11 | 2009-06-18 | ボストン サイエンティフィック サイムド,インコーポレイテッド | Medical image search |
| JP2007304738A (en) * | 2006-05-10 | 2007-11-22 | Viva Computer Co Ltd | Image storage / retrieval system, image storage device, image search device and program for the same |
| JP2008165303A (en) * | 2006-12-27 | 2008-07-17 | Fujifilm Corp | Content registration apparatus, content registration method, and content registration program |
| JP2008171299A (en) * | 2007-01-15 | 2008-07-24 | Fujifilm Corp | Content search device, content registration device and method |
| JP2008269557A (en) * | 2007-03-26 | 2008-11-06 | Seiko Epson Corp | Image search apparatus and image search method |
| JP2010072699A (en) * | 2008-09-16 | 2010-04-02 | Nikon Corp | Image classification device and image processing device |
| JP2010176479A (en) * | 2009-01-30 | 2010-08-12 | Fujifilm Corp | Image keyword appending apparatus, image search device and method of controlling them |
| JP2010224901A (en) * | 2009-03-24 | 2010-10-07 | Nec Casio Mobile Communications Ltd | Terminal device and program |
| WO2011065236A1 (en) * | 2009-11-25 | 2011-06-03 | Kddi株式会社 | Secondary content provision system and method |
| WO2013175608A1 (en) * | 2012-05-24 | 2013-11-28 | 株式会社日立製作所 | Image analysis device, image analysis system, and image analysis method |
| JPWO2013175608A1 (en) * | 2012-05-24 | 2016-01-12 | 株式会社日立製作所 | Image analysis apparatus, image analysis system, and image analysis method |
| US9665798B2 (en) | 2012-05-24 | 2017-05-30 | Hitachi, Ltd. | Device and method for detecting specified objects in images using metadata |
| JP2016529611A (en) * | 2013-07-31 | 2016-09-23 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | Method and system for retrieving images |
| JP2015049748A (en) * | 2013-09-02 | 2015-03-16 | 日本電信電話株式会社 | Image processing apparatus, image processing method and image processing program |
| JP5792913B1 (en) * | 2014-01-30 | 2015-10-14 | 楽天株式会社 | Attribute display system, attribute display method, and attribute display program |
| WO2015114785A1 (en) * | 2014-01-30 | 2015-08-06 | 楽天株式会社 | Attribute display system, attribute display method, and attribute display program |
| US10331730B2 (en) | 2014-01-30 | 2019-06-25 | Rakuten, Inc. | Attribute display system, attribute display method, and attribute display program |
| JP2016218652A (en) * | 2015-05-19 | 2016-12-22 | シャープ株式会社 | Display device, information processing program, and information processing method |
| JP2018112806A (en) * | 2017-01-10 | 2018-07-19 | 大日本印刷株式会社 | Image associating apparatus, image database, image retrieval apparatus, image retrieval system and program |
| JP2020035092A (en) * | 2018-08-28 | 2020-03-05 | 株式会社豊田中央研究所 | Environment digitizing device |
| JP7052642B2 (en) | 2018-08-28 | 2022-04-12 | 株式会社豊田中央研究所 | Environmental digitizer |
| WO2022091299A1 (en) * | 2020-10-29 | 2022-05-05 | 日本電気株式会社 | Search device, search method, and recording medium |
| JPWO2022091299A1 (en) * | 2020-10-29 | 2022-05-05 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US20240070214A1 (en) | Image searching method and apparatus | |
| JP2004362314A (en) | Search information registration device, information search device, search information registration method | |
| JP4234381B2 (en) | Method and computer program product for locating facial features | |
| CN108416776B (en) | Image recognition method, image recognition apparatus, computer product, and readable storage medium | |
| JP3999964B2 (en) | Multi-mode digital image processing method for eye detection | |
| WO2020224424A1 (en) | Image processing method and apparatus, computer readable storage medium, and computer device | |
| CN104200240B (en) | A kind of Sketch Searching method based on content-adaptive Hash coding | |
| JP2008097607A (en) | How to automatically classify input images | |
| US20090300055A1 (en) | Accurate content-based indexing and retrieval system | |
| US20120287304A1 (en) | Image recognition system | |
| Chen et al. | Object segmentation of database images by dual multiscale morphological reconstructions and retrieval applications | |
| CN106649487A (en) | Image retrieval method based on interest target | |
| Seetharaman et al. | Texture characterization, representation, description, and classification based on full range Gaussian Markov random field model with Bayesian approach | |
| KR102323861B1 (en) | System for selling clothing online | |
| CN115862120B (en) | Face action unit identification method and equipment capable of decoupling separable variation from encoder | |
| CN109213886A (en) | Image retrieval method and system based on image segmentation and fuzzy pattern recognition | |
| Zhao et al. | Learning best views of 3D shapes from sketch contour | |
| CN112001438B (en) | Multi-mode data clustering method for automatically selecting clustering number | |
| Wijaya et al. | Pornographic image recognition based on skin probability and eigenporn of skin ROIs images | |
| CN112651955A (en) | Intestinal tract image identification method and terminal device | |
| Li et al. | Revisiting spectral clustering for near-convex decomposition of 2D shape | |
| Meng et al. | Merged region based image retrieval | |
| WO2026001201A1 (en) | Training method and apparatus for key point prediction model, device, medium and product | |
| Rahman | Unsupervised Natural Image Segmentation Using Mean Histogram Features. | |
| JP2006031114A (en) | Image division processing system |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060314 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090113 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090605 |