JP2016122279A - Image dictionary construction method, image representation method, apparatus, and program - Google Patents
Image dictionary construction method, image representation method, apparatus, and program Download PDFInfo
- Publication number
- JP2016122279A JP2016122279A JP2014261008A JP2014261008A JP2016122279A JP 2016122279 A JP2016122279 A JP 2016122279A JP 2014261008 A JP2014261008 A JP 2014261008A JP 2014261008 A JP2014261008 A JP 2014261008A JP 2016122279 A JP2016122279 A JP 2016122279A
- Authority
- JP
- Japan
- Prior art keywords
- image
- partial
- unit
- clusters
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、画像辞書構成方法、画像表現方法、装置、及びプログラムに係り、特に、画像の画像表現を得るための画像辞書を構成する画像辞書構成方法、装置、及びプログラム、並びに、画像の画像表現を求める画像表現方法、装置、及びプログラムに関する。 The present invention relates to an image dictionary construction method, an image expression method, an apparatus, and a program, and more particularly to an image dictionary composition method, apparatus, and program for constructing an image dictionary for obtaining an image representation of an image, and an image image. The present invention relates to an image expression method, apparatus, and program for obtaining expression.
通信環境やコンピュータ、分散処理基盤技術の高度・高品質化により、ネットワークに流通する画像、映像コンテンツの数は膨大なものとなっている。あるサイトでは、日々3.5億の画像がアップロードされていると報告されており、また、あるサイトでは、1分当たり64時間分の映像が新規に公開されているとの報告もある。 Due to the advancement and quality of communication environments, computers, and distributed processing infrastructure technologies, the number of images and video content distributed on the network has become enormous. One site reports that 350 million images are uploaded every day, and another site reports that 64 hours of video are newly released per minute.
このような膨大な量のコンテンツは、利用者にとっては豊富な情報源となる一方で、閲覧したいコンテンツに素早くアクセスすることがますます困難になっているという問題ももたらしている。このような流れの中、閲覧・視聴したいコンテンツを効率的に探し出すためのメディア解析技術への要望がますます高まってきている。 Such an enormous amount of content is a rich source of information for users, but it also raises the problem that it becomes increasingly difficult to quickly access the content that the user wants to browse. In such a trend, there is an increasing demand for media analysis technology for efficiently searching for contents to be browsed and viewed.
以降画像に限って述べるが、映像は、連続する一連の画像によって構成されているため、本明細書に記載の範囲で、映像にもそのまま適用することができることは言うまでもない。 Although the following description is limited to the image, it goes without saying that the video can be applied as it is to the video within the scope described in the present specification because it is composed of a series of continuous images.
画像解析の最初のステップは、画像表現を得ること、すなわち、画像を数値によって比較可能なベクトルとして記述することである。こうすることで、例えば画像認識を実施する場合は、画像表現によって生成される空間の内、ある特定の領域にあるものを同じカテゴリに分類することができる。あるいは画像検索の場合、ある画像をクエリとして与えたとき、画像表現によって画像の類似度を評価し、類似画像を検索することができる。そのほか、画像推薦においても利用者がこれまでに閲覧した/閲覧している画像と類似する画像を発見してこれを推薦するし、沢山の画像をより少数の代表画像にまとめるような場合においても、類似した画像を発見して省くような処理を実行する。いずれの場合においても、画像表現が必要となる。 The first step in image analysis is to obtain an image representation, ie describe the images as numerically comparable vectors. In this way, for example, when image recognition is performed, it is possible to classify the space in a specific area within the space generated by the image expression into the same category. Alternatively, in the case of an image search, when a certain image is given as a query, the similarity between the images can be evaluated by image representation, and a similar image can be searched. In addition, even in the case of image recommendation, when a user finds an image similar to the image browsed / viewed so far, recommends it, and collects many images into a smaller number of representative images. Then, a process for finding and omitting a similar image is executed. In either case, image representation is required.
以上利用形態を鑑みるに、画像表現に対する要件として、画像の“意味的な内容”を捉えたものであることが好ましい。ここでいう“意味的な内容”とは、すなわち、画像に収められた被写体(『犬』、『家』、『パソコン』等)やシーン(『海岸』、『オフィス』、『森林』等)を特徴づける部品や物体及びその特徴を指すものであり、言語として指示可能な画像中の一部領域のことである。例えば、『犬』であれば『耳の形』(『尖った耳』、『垂れ耳』等)や『足』(『短く丸い足』、『細長い足』等)等、『海岸』であれば『ビーチ』、『海』、『船』等を指す。仮に、画像中にこういった部品や物体の有無が得られていれば、その集合から撮影されている被写体やシーンを演繹的に推論することができる。結果、意味的な内容に基づく分類や検索が可能となり、産業上における応用価値が高い。 In view of the above utilization form, it is preferable that the “semantic content” of an image is captured as a requirement for image representation. “Semantic content” here means subjects (“dog”, “house”, “computer”, etc.) and scenes (“coast”, “office”, “forest”, etc.) contained in the image. This is a part or object that characterizes the character and its characteristic, and is a partial area in the image that can be designated as a language. For example, if it is a “dog”, it should be “coast” such as “ear shape” (“pointed ear”, “drooping ear”, etc.) or “foot” (“short round leg”, “elongate leg”, etc.) "Beach", "Sea", "Ship", etc. If the presence or absence of such parts and objects is obtained in the image, it is possible to a priorily infer the subject and scene that are photographed from the set. As a result, classification and search based on semantic content are possible, and the industrial application value is high.
過去、様々な画像表現方法が考案されてきている。特許文献1記載の技術では、画像の輝度や色、テクスチャ(模様)、エッジ等について、画像全域に渡る統計をヒストグラム等として求め、これを画像表現とする方法が開示されている。 In the past, various image expression methods have been devised. The technique described in Patent Document 1 discloses a method in which statistics over the entire image are obtained as a histogram or the like for image brightness, color, texture (pattern), edge, and the like, and this is used as an image representation.
また、画像表現を得る上で、事前にそのモデルとなる画像辞書を構成しておき、この辞書に基づいて画像表現を求める方法も開示されてきている。 Also, a method has been disclosed in which an image dictionary serving as a model is configured in advance for obtaining an image expression, and the image expression is obtained based on this dictionary.
非特許文献1には、一般にBag−of−Words、又は、Bag−of−Key−Points等として知られる技術が開示されている。この技術では、画像を数ピクセル四方の微小領域の集合と見做し、その領域の有無を画像全体に渡って計数することによって、当該微小領域のヒストグラムとして画像を表現する。まず、画像中の特にコントラストの強い微小領域の集合を求め、当該微小領域を輝度勾配によって記述した後、これらを量子化することによって画像辞書(コードブック)を得る。画像を表現する際には、画像全域に渡りコントラストの強い微小領域の輝度勾配を求め、辞書に基づいてこれらを符号化する。この後、各符号の出現頻度を求め、ヒストグラム化することで、これを画像表現とする。 Non-Patent Document 1 discloses a technique generally known as Bag-of-Words or Bag-of-Key-Points. In this technique, an image is regarded as a set of minute regions on several pixels, and the presence or absence of the region is counted over the entire image, thereby expressing the image as a histogram of the minute region. First, a set of minute regions having a particularly high contrast in an image is obtained, the minute regions are described by a luminance gradient, and then quantized to obtain an image dictionary (codebook). When an image is expressed, a luminance gradient of a minute region having a strong contrast over the entire image is obtained, and these are encoded based on a dictionary. Thereafter, the appearance frequency of each code is obtained and converted into a histogram, which is used as an image expression.
非特許文献2には、被写体やシーンを特徴的に表すような領域を探し出し、これによって画像を表現する方法が開示されている。この方法では、画像をランダムな部分領域に分割し、これをクラスタリングしていくことで類似した部分領域をまとめていく。続いて、各クラスタに含まれる部分領域の特徴量を、Support Vector Machine(SVM)等によって関数としてモデル化し、このモデルに適合した部分領域(すなわち、モデルに部分領域の特徴量を入力したとき、その出力値が高いもの)の集合として辞書を構成する。得られた辞書を用い、新たな画像が入力された際、辞書に登録された部分領域と類似した部分領域が出現する頻度を求め、ヒストグラム化することで画像を表現する。 Non-Patent Document 2 discloses a method for finding an area that characteristically represents a subject or a scene and expressing an image by this. In this method, an image is divided into random partial areas, and similar partial areas are grouped by clustering them. Subsequently, the feature amount of the partial region included in each cluster is modeled as a function by Support Vector Machine (SVM) or the like, and the partial region suitable for this model (that is, when the feature amount of the partial region is input to the model, A dictionary is constructed as a set of those whose output values are high. When a new image is input using the obtained dictionary, the frequency of appearance of a partial region similar to the partial region registered in the dictionary is obtained, and the image is expressed by forming a histogram.
先に述べた通り、画像認識、画像検索等、多くの産業上の応用の観点においては、画像表現は被写体やシーンの意味的な内容をよく表す表現となっていることが好ましい。この観点においては、前記先行技術は、以下に示す問題があった。 As described above, from the viewpoint of many industrial applications such as image recognition and image search, it is preferable that the image expression is an expression that well represents the semantic content of the subject or scene. In this respect, the prior art has the following problems.
特許文献1及び非特許文献1記載の技術は、画像全体から抽出された、ごく低次の物理量(色やテクスチャ、輝度勾配等)によって画像を表現している。しかしながら、画像全体から抽出された低次の物理量では、全体が類似した被写体やシーンを判別できないという問題があった。特に、同じ『鳥』であってもよく似た種類(『タカ』と『ハヤブサ』等)や、『犬』であってもよく似た犬種(『シベリアン・ハスキー』と『アラスカン・マラミュート』等)は、部分的な差異こそあるものの、全貌が良く類似しているため、このような画像表現では実用的な識別精度を得ることができなかった。 The techniques described in Patent Document 1 and Non-Patent Document 1 express an image with very low-order physical quantities (color, texture, luminance gradient, etc.) extracted from the entire image. However, there is a problem in that low-order physical quantities extracted from the entire image cannot discriminate subjects and scenes that are similar to each other. In particular, even the same “bird” (similar to “hawk” and “falcon”), or similar to “dog” (“Siberian Husky” and “Alaskan Malamute”) Etc.), although there are some differences, the whole picture is very similar, and practical image recognition accuracy cannot be obtained with such image representation.
一方、非特許文献2記載の技術は、特徴的な部分領域から、差異となる部分領域を抽出して画像辞書を構成することで、画像表現において、被写体間の細かな差異を識別できる画像辞書を獲得できる可能性がある。しかしながら、依然として画像特徴のみから画像辞書を構築しようとするため、先に述べたような意味的な内容(『尖った耳』、『細長い足』等)に即した部分領域を必ずしも特定して抽出できるとは限らず、有効な画像辞書を獲得できないという問題があった。 On the other hand, the technique described in Non-Patent Document 2 is an image dictionary that can identify minute differences between subjects in image representation by extracting partial areas that are different from characteristic partial areas and constructing an image dictionary. May be earned. However, since we are still trying to build an image dictionary based only on image features, we need to identify and extract partial areas based on semantic content (such as “pointed ears” and “elongate legs”) as described above. There is a problem that a valid image dictionary cannot be obtained.
以上のことより、従来開示されている発明は、そのいずれも、画像表現に対する要件である、画像中の被写体やシーンの意味的な内容を表す画像表現を獲得できるような画像辞書構築技術、及び画像表現技術ではなかった。 From the above, the inventions that have been disclosed in the past are all image dictionary construction techniques that can acquire an image representation that represents the semantic content of the subject or scene in the image, which is a requirement for the image representation, and It was not an image expression technology.
本発明は、上記問題点を解決するために成されたものであり、画像中の意味のある特徴的な領域を発見することが可能な画像表現を得るための画像辞書を構成することができる画像辞書構成方法、装置、及びプログラムを提供することを目的とする。 The present invention has been made to solve the above-described problems, and can constitute an image dictionary for obtaining an image expression capable of finding a meaningful characteristic region in an image. It is an object to provide an image dictionary construction method, apparatus, and program.
また、画像中の意味のある特徴的な領域を発見することが可能な画像表現を求めることができる画像表現方法、装置、及びプログラムを提供することを目的とする。 It is another object of the present invention to provide an image expression method, apparatus, and program capable of obtaining an image expression capable of finding a meaningful characteristic area in an image.
上記目的を達成するために、第1の発明に係る画像辞書構成方法は、部分領域分割部と、特徴量抽出部と、分類部と、候補領域決定部と、識別器学習部とを含み、入力された一つ以上の画像の各々、及び前記画像の各々に対応した文書データから画像辞書を構成する画像辞書構成装置における画像辞書構成方法であって、前記部分領域分割部が、前記入力された一つ以上の画像の各々を、一つ以上の部分領域に分割するステップと、前記特徴量抽出部が、前記部分領域分割部によって分割された前記部分領域からなる部分領域の集合に含まれる前記部分領域の各々について、特徴量を抽出するステップと、前記分類部が、前記特徴量抽出部により抽出した前記部分領域の各々の特徴量に関する類似度に基づいて、前記部分領域の集合の前記部分領域の各々を一つ以上のクラスタのうちのいずれかのクラスタに分類するステップと、前記候補領域決定部が、前記クラスタの各々について、前記分類部によって前記クラスタに分類された部分領域の各々に対する、前記部分領域の特徴量と、前記入力された、前記部分領域を含む画像に対応した文書データとに基づいて、前記クラスタを代表する部分領域である候補領域を決定するステップと、前記識別器学習部が、前記クラスタの各々について、前記候補領域決定部によって決定された候補領域の前記特徴量を正例、前記クラスタに分類されなかった前記部分領域の前記特徴量を負例として、前記部分領域が前記クラスタに属するか否かを識別するための識別器を学習して取得し、前記クラスタの各々について取得した前記識別器を、画像辞書として出力するステップと、を含んで実行することを特徴とする。 To achieve the above object, an image dictionary construction method according to the first invention includes a partial region dividing unit, a feature amount extracting unit, a classifying unit, a candidate region determining unit, and a discriminator learning unit, An image dictionary construction method in an image dictionary construction device that constructs an image dictionary from each of one or more input images and document data corresponding to each of the images, wherein the partial region dividing unit is the input Each of the one or more images is divided into one or more partial areas, and the feature amount extraction unit is included in a set of partial areas formed by the partial areas divided by the partial area division unit. Extracting a feature amount for each of the partial regions, and the classification unit based on a similarity degree of each of the partial regions extracted by the feature amount extraction unit, the set of the partial regions Part Classifying each of the regions into one of one or more clusters, and the candidate region determining unit, for each of the clusters, for each of the partial regions classified into the clusters by the classifying unit Determining a candidate area that is a partial area representing the cluster based on the feature quantity of the partial area and the input document data corresponding to the image including the partial area; and the classifier For each of the clusters, the learning unit uses the feature amount of the candidate region determined by the candidate region determination unit as a positive example, and sets the feature amount of the partial region not classified into the cluster as a negative example. Learning and obtaining a classifier for identifying whether a region belongs to the cluster, the classifier obtained for each of the clusters, And executes includes a step of outputting as an image dictionary, a.
第1の発明に係る画像辞書構成装置は、入力として受け付けた一つ以上の画像の各々、及び前記画像の各々に対応した文書データから画像辞書を構成する画像辞書構成装置であって、前記入力された一つ以上の画像の各々を、一つ以上の部分領域に分割する部分領域分割部と、前記部分領域分割部によって分割された前記部分領域からなる部分領域の集合に含まれる前記部分領域の各々について、特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により抽出した前記部分領域の各々の特徴量に関する類似度に基づいて、前記部分領域の集合の前記部分領域の各々を一つ以上のクラスタのうちのいずれかのクラスタに分類する分類部と、前記クラスタの各々について、前記分類部によってクラスタに分類された部分領域の各々に対する、前記部分領域の特徴量と、前記入力された、前記部分領域を含む画像に対応した文書データとに基づいて、前記クラスタを代表する部分領域である候補領域を決定する候補領域決定部と、前記クラスタの各々について、前記候補領域決定部によって決定された候補領域の前記特徴量を正例、前記クラスタに分類されなかった前記部分領域の前記特徴量を負例として、前記部分領域が前記クラスタに属するか否かを識別するための識別器を学習して取得し、前記クラスタの各々について取得した前記識別器を、画像辞書として出力する識別器学習部と、を含んで構成されている。 An image dictionary construction device according to a first aspect of the present invention is an image dictionary construction device that constructs an image dictionary from each of one or more images received as input and document data corresponding to each of the images. The partial region included in a set of partial regions formed by the partial region dividing unit that divides each of the one or more images that have been divided into one or more partial regions, and the partial region divided by the partial region dividing unit Each of the partial regions of the set of partial regions based on a similarity with respect to the feature amounts of the partial regions extracted by the feature amount extraction unit. A classifying unit that classifies one of the one or more clusters, and for each of the clusters, for each of the partial areas classified into clusters by the classifying unit, A candidate area determination unit that determines a candidate area that is a partial area representing the cluster based on the feature amount of the partial area and the input document data corresponding to the image including the partial area; and the cluster For each of the above, the partial region belongs to the cluster, with the feature amount of the candidate region determined by the candidate region determination unit as a positive example and the feature amount of the partial region not classified into the cluster as a negative example A classifier learning unit that learns and acquires a classifier for identifying whether or not the cluster is obtained and outputs the classifier acquired for each of the clusters as an image dictionary.
また、第2の発明に係る画像表現方法は、部分領域分割部と、特徴量抽出部と、表現部と、を含む画像表現装置における画像表現方法であって、前記部分領域分割部が、入力された画像を一つ以上の部分領域に分割するステップと、前記特徴量抽出部が、前記部分領域の各々について、特徴量を抽出するステップと、前記表現部が、前記特徴量抽出部により抽出した前記部分領域の各々の特徴量と、第1の発明に係る画像辞書構成方法によって出力された前記画像辞書とに基づいて、前記部分領域の各々について、前記部分領域が前記クラスタの各々に帰属する確度を算出し、前記算出された確度に基づいて、前記部分領域が前記クラスタのいずれかに属するか、又は前記クラスタのいずれにも属さないかを判定し、前記判定の結果に基づいて、前記クラスタの各々について前記クラスタに属すると判定された頻度を表すヒストグラムを、前記入力された画像の画像表現として出力するステップと、を含んで実行することを特徴とする。 An image representation method according to a second aspect of the present invention is an image representation method in an image representation device including a partial region dividing unit, a feature amount extracting unit, and a representation unit, wherein the partial region dividing unit includes an input Dividing the image into one or more partial areas, the step of extracting the feature quantity for each of the partial areas, and the expression section extracting by the feature quantity extraction section On the basis of the feature amount of each of the partial areas and the image dictionary output by the image dictionary construction method according to the first invention, the partial area belongs to each of the clusters for each of the partial areas. To determine whether the partial region belongs to any of the clusters or does not belong to any of the clusters based on the calculated accuracy, and based on the result of the determination , A histogram representing the frequencies which are determined to belong to the cluster for each of the clusters, and executes contain, and outputting an image representation of the input image.
第2の発明に係る画像表現装置は、入力された画像を一つ以上の部分領域に分割する部分領域分割部と、前記部分領域の各々について、特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により抽出した前記部分領域の各々の特徴量と、請求項2記載の画像辞書構成装置によって出力された前記画像辞書とに基づいて、前記部分領域の各々について、前記部分領域が前記クラスタの各々に帰属する確度を算出し、前記算出された確度に基づいて、前記部分領域が前記クラスタのいずれかに属するか、又は前記クラスタのいずれにも属さないかを判定し、前記判定の結果に基づいて、前記クラスタの各々について前記クラスタに属すると判定された頻度を表すヒストグラムを、前記入力された画像の画像表現として出力する表現部と、を含んで構成されている。 An image expression device according to a second aspect of the present invention includes a partial region dividing unit that divides an input image into one or more partial regions, a feature amount extracting unit that extracts a feature amount for each of the partial regions, Based on the feature amount of each of the partial regions extracted by the feature amount extraction unit and the image dictionary output by the image dictionary construction device according to claim 2, the partial region is the Calculating the accuracy belonging to each of the clusters, and determining whether the partial region belongs to any of the clusters or does not belong to any of the clusters based on the calculated accuracy; A representation unit that outputs, as an image representation of the input image, a histogram representing the frequency determined to belong to the cluster for each of the clusters based on a result. It is configured.
第1の発明に係るプログラムは、コンピュータを、第1の発明に係る画像辞書構成方法又は画像表現方法を構成する各ステップを実行させるためのプログラムである。 A program according to a first invention is a program for causing a computer to execute each step constituting the image dictionary construction method or the image expression method according to the first invention.
本発明の画像辞書構成方法、装置、及びプログラムによれば、入力された画像を部分領域に分割し、部分領域の各々をクラスタに分類し、クラスタの各々について、部分領域の特徴量と、部分領域を含む画像に対応した文書データとに基づいて、クラスタの代表となる部分領域である候補領域を決定し、候補領域を正例として用いて識別器を学習することにより、画像中の意味のある特徴的な領域を発見することが可能な画像表現を得るための画像辞書を構成することができる、という効果が得られる。 According to the image dictionary configuration method, apparatus, and program of the present invention, an input image is divided into partial areas, each of the partial areas is classified into clusters, and for each of the clusters, the feature amount of the partial area and the partial Based on the document data corresponding to the image including the region, a candidate region that is a partial region that is a representative of the cluster is determined, and the classifier is learned using the candidate region as a positive example. An effect is obtained that an image dictionary for obtaining an image expression capable of finding a certain characteristic region can be constructed.
また、画像表現方法、装置、及びプログラムによれば、入力された画像を部分領域に分割し、部分領域の各々の特徴量と、画像辞書とに基づいて、部分領域の各々について、クラスタのいずれかに属するか、クラスタのいずれにも属さないかを判定し、判定の結果に基づいて、クラスタの各々についてクラスタに属すると判定された頻度を表すヒストグラムを、入力された画像の画像表現として出力することにより、画像中の意味のある特徴的な領域を発見することが可能な画像表現を求めることができる、という効果が得られる。 In addition, according to the image expression method, apparatus, and program, an input image is divided into partial areas, and each of the partial areas is determined based on the feature amount of each partial area and the image dictionary. A histogram representing the frequency of each cluster determined to belong to the cluster is output as an image representation of the input image. By doing so, the effect that the image expression which can discover the meaningful characteristic area in an image can be calculated | required is acquired.
以下、図面を参照して本発明の実施の形態を詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
<本発明の第1の実施の形態に係る画像辞書構成装置の構成> <Configuration of Image Dictionary Configuration Device According to First Embodiment of the Present Invention>
まず、本発明の第1の実施の形態に係る画像辞書構成装置の構成について説明する。図1に示すように、本発明の第1の実施の形態に係る画像辞書構成装置100は、CPUと、RAMと、後述する画像辞書構成処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この画像辞書構成装置100は、機能的には図1に示すように画像データベース10と、演算部20と、画像辞書50とを備えている。
First, the configuration of the image dictionary configuration device according to the first embodiment of the present invention will be described. As shown in FIG. 1, the image
画像データベース10には、画像自体、あるいは、当該画像ファイルの所在を一意に示すアドレスが格納されているものとする。また、格納されている画像の内、一つ以上の画像に対応した文書データが格納されているものとする。この文書データは、画像全体に関する意味的な内容を表すものである。ここでいう意味的な内容を表す文書データは、画像に撮影された被写体やシーンを特徴づける部品や物体について記述した文書である。その形式は、例えばキーワードの形で与えられていてもよいし、文章として与えられていてもよい。前者の場合、好ましくは、当該画像の撮影された被写体やシーンの全体、又は一部を記述する単語として与えられているものとする。例えば、被写体が『犬』であれば『耳の形』(『尖った耳』、『垂れ耳』等)や『足』(『短く丸い足』、『細長い足』等)等、『海岸』であれば『ビーチ』、『海』、『船』等として与えられる。後者の場合は、その画像の被写体やシーンを記述する文書として与えられていることが好ましい。その具体性は任意であり、例えば、船の渡航する海岸に耳の尖った犬がいるような場合、『海岸に犬がいる』と記述されていてもよいし、『船の渡航する海岸に耳の尖った犬がいる』と記述されていても構わない。
It is assumed that the
以上の文書データを準備する方法は問わない。例えば、インターネット上のウェブページにある画像を用いる場合には、通常、画像の周囲にその画像と関連のある文書があるが、これを文書データとして用いてもよい。この場合、人手を介さずに文書データを得ることができる利点がある。あるいは、各画像について、人手で文書データを入力しても構わない。この場合、人の正確な判断に則った信頼性の高い文書データを構成できるという利点がある。 The method for preparing the above document data does not matter. For example, when an image on a web page on the Internet is used, there is usually a document associated with the image around the image, but this may be used as document data. In this case, there is an advantage that document data can be obtained without human intervention. Alternatively, the document data may be manually input for each image. In this case, there is an advantage that highly reliable document data can be configured in accordance with a person's accurate judgment.
また、画像データベース10は、上記各画像、又はアドレス、及び、対応する文書データを関連づけて格納できるものであればよく、いわゆるRDBMS(Relational Database Management System)などで構成されているものとしてもよい。なお、画像データベース10は、画像辞書構成装置100の内部にあっても外部にあっても構わず、通信手段は任意の公知ものを用いることができる。さらに、画像辞書構成装置100が一つ以上の画像を入力として受信できる限り、必ずしもデータベースでなくとも構わない。本実施形態においては、画像データベース10が外部にあるものとして、通信手段は、インターネット、TCP/IPにより通信するよう接続されているものとする。
Further, the
また、画像辞書構成装置100が備える各部及び画像データベース10は、演算処理装置、記憶装置等を備えたコンピュータやサーバ等により構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは画像辞書構成装置100が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。もちろん、その他いかなる構成要素についても、単一のコンピュータやサーバによって実現しなければならないものではなく、ネットワークによって接続された複数のコンピュータに分散して実現してもよい。
Further, each unit and the
演算部20は、部分領域分割部30と、特徴量抽出部32と、分類部34と、候補領域決定部36と、識別器学習部38とを含んで構成されている。
The
部分領域分割部30は、画像データベース10から入力された一つ以上の画像を読み込み、各画像を一つ以上の部分領域に分割、選定してこれらを特徴量抽出部32に出力する。
The partial
以下、部分領域分割部30における部分領域抽出処理について詳述する。本処理は、画像データベース10に格納された画像全てに対して実施されるが、全ての画像に対して同じ処理が実行されるので、ここでは1枚の画像に対する処理のみについて説明する。
Hereinafter, the partial area extraction processing in the partial
部分領域抽出処理では、画像全体の中から、その一部領域だけを切り出して抽出する。具体的には、部分領域数と部分領域サイズを指定し、一定間隔で部分領域を抽出していく。 In the partial area extraction process, only the partial area is cut out and extracted from the entire image. Specifically, the number of partial areas and the partial area size are designated, and partial areas are extracted at regular intervals.
例えば、元の画像サイズが縦360ピクセル×横240ピクセルであるとし、部分領域数を16×16=256個、部分領域サイズを32ピクセル×32ピクセルとした場合の一例を説明する。この場合、縦は(360−32)/16=20ピクセル(少数点以下切りすて)シフトごと、横は(240−32)/16=13ピクセルシフトごとに一つ、32ピクセル×32ピクセルの部分領域を抽出する。 For example, an example in which the original image size is 360 × vertical × 240 horizontal, the number of partial areas is 16 × 16 = 256, and the partial area size is 32 × 32 pixels will be described. In this case, the vertical is (360-32) / 16 = 20 pixels (every decimal point cut) and the horizontal is (240-32) / 16 = 13 pixel shift, 32 pixels × 32 pixels. Extract a partial area.
部分領域数及び部分領域サイズに対しては、任意の正の整数を設定すればよい。部分領域は相互に重なりがあっても構わず、また、いくつかの設定を組み合わせて用いるものとしてもよい。 Any positive integer may be set for the number of partial areas and the partial area size. The partial areas may overlap each other, or a combination of several settings may be used.
以上の処理を画像全体に対して行うことで、部分領域の集合を得ることができる。こうして得た部分領域集合を特徴量抽出部32に出力し、処理を終了する。 By performing the above processing on the entire image, a set of partial areas can be obtained. The partial area set obtained in this way is output to the feature quantity extraction unit 32, and the process is terminated.
特徴量抽出部32は、部分領域分割部30によって分割された画像の部分領域からなる部分領域の集合に含まれる部分領域の各々について、解析をし、予め定めた特徴量を抽出する。当該特徴量は、分類部34に出力される。なお、本実施の形態では、特徴量として画像特徴ベクトルを抽出する。
The feature amount extraction unit 32 analyzes each partial region included in the set of partial regions composed of the partial regions of the image divided by the partial
以下、特徴量抽出部32における特徴量の抽出について説明する。本実施の形態では以下に挙げる全ての特徴量について抽出をするが、どのような特徴量を抽出するかは、本発明の実施の形態の要件として重要ではなく、一般に知られた公知の特徴抽出処理を用いてよい。具体的には、画像から抽出された次元を持つ数値データ(スカラー又はベクトル)であれば、あらゆる特徴量及びその組み合わせに対して有効であり、例えば、明るさ特徴、色特徴、テクスチャ特徴、景観特徴、形状特徴などを抽出すればよい。 Hereinafter, extraction of feature amounts in the feature amount extraction unit 32 will be described. In this embodiment, all the feature quantities listed below are extracted, but what kind of feature quantity is extracted is not important as a requirement of the embodiment of the present invention, and is a publicly known publicly known feature extraction. Processing may be used. Specifically, any numerical data (scalar or vector) having a dimension extracted from an image is effective for all feature quantities and combinations thereof. For example, brightness feature, color feature, texture feature, landscape What is necessary is just to extract a feature, a shape feature, etc.
明るさ特徴は、部分領域内のピクセルに対して、HSV色空間におけるV値のヒストグラムとして求めることができる。 The brightness feature can be obtained as a histogram of V values in the HSV color space for the pixels in the partial region.
色特徴は、L*a*b*色空間における各軸(L*、a*、b*)の値のヒストグラムとして求めることができる。 The color feature can be obtained as a histogram of the values of the respective axes (L *, a *, b *) in the L * a * b * color space.
テクスチャ特徴としては、部分領域内から一定間隔で抽出したキーポイントごとに局所特徴量を抽出すればよい。局所特徴としては、例えば下記の参考文献1に記載されるSIFT(Scale Invariant Feature Transform)や、下記の参考文献2に記載されるSURF(Speeded Up Robust Features)などを用いることができる。 As the texture feature, a local feature amount may be extracted for each key point extracted from the partial region at regular intervals. As the local feature, for example, SIFT (Scale Invariant Feature Transform) described in Reference Document 1 below, SURF (Speeded Up Features) described in Reference Document 2 below, and the like can be used.
[参考文献1]D.G. Lowe, “Distinctive Image Features from Scale-Invariant Keypoints ", International Journal of Computer Vision, pp.91-110, 2004 [Reference 1] D.G. Lowe, “Distinctive Image Features from Scale-Invariant Keypoints”, International Journal of Computer Vision, pp.91-110, 2004
[参考文献2]H. Bay, T. Tuytelaars, and L.V. Gool, “SURF: Speeded Up Robust Features", Lecture Notes in Computer Science, vol. 3951, pp.404-417, 2006 [Reference 2] H. Bay, T. Tuytelaars, and L.V. Gool, “SURF: Speeded Up Robust Features”, Lecture Notes in Computer Science, vol. 3951, pp.404-417, 2006
これらによって抽出される局所特徴は、例えばキーポイント1点あたり128次元の実数値ベクトルとなるため、128次元×キーポイント数分の次元を持つ。あるいは、このベクトルを予め学習して生成しておいた符号長を参照して、符号に変換し、部分領域内適当なサイズのブロック内に存在する符号の数を数え上げることでヒストグラムを生成することができる。この場合、ヒストグラムのビンの数は、符号長の符号数と一致する。又は、参考文献3に記載のスパース表現や、参考文献4、5に記載のフィッシャーカーネルに基づく特徴表現などを利用してもよい。 The local feature extracted by these is, for example, a 128-dimensional real value vector per key point, and therefore has 128 dimensions × the number of key points. Alternatively, refer to the code length generated by learning this vector in advance, convert it to a code, and generate a histogram by counting the number of codes present in a block of an appropriate size in the partial area. Can do. In this case, the number of bins in the histogram matches the code number of the code length. Alternatively, the sparse expression described in Reference 3 or the feature expression based on the Fisher kernel described in References 4 and 5 may be used.
[参考文献3] Jinjun Wang, Jianchao Yang, Kai Yu, Fengjun Lv, Thomas Huang, and Yihong Gong, “Locality-constrained Linear Coding for Image Classification", IEEE Conference on Computer Vision and Pattern Recognition, pp. 3360-3367, 2010. [Reference 3] Jinjun Wang, Jianchao Yang, Kai Yu, Fengjun Lv, Thomas Huang, and Yihong Gong, “Locality-constrained Linear Coding for Image Classification”, IEEE Conference on Computer Vision and Pattern Recognition, pp. 3360-3367, 2010.
[参考文献4] Florent Perronnin, Jorge Sanchez, Thomas Mensink, “Improving the Fisher Kernel for Large-Scale Image Classification", European Conference on Computer Vision, pp. 143-156, 2010. [Reference 4] Florent Perronnin, Jorge Sanchez, Thomas Mensink, “Improving the Fisher Kernel for Large-Scale Image Classification”, European Conference on Computer Vision, pp. 143-156, 2010.
[参考文献5] Herve Jegou, Florent Perronnin, Matthijs Douze, Jorge Sanchez, Patrick Perez, Cordelia Schmid, “Aggregating Local Image Descriptors into Compact Codes", IEEE Trans. Pattern Recognition and Machine Intelligence, Vol. 34, No. 9, pp. 1704-1716, 2012. [Reference 5] Herve Jegou, Florent Perronnin, Matthijs Douze, Jorge Sanchez, Patrick Perez, Cordelia Schmid, “Aggregating Local Image Descriptors into Compact Codes”, IEEE Trans. Pattern Recognition and Machine Intelligence, Vol. 34, No. 9, pp. 1704-1716, 2012.
結果として生成される特徴量は、いずれの場合にも、符号長の符号数に依存した長さを持つ実数値ベクトルになる。 In any case, the resulting feature quantity is a real value vector having a length that depends on the number of codes of the code length.
景観特徴は、画像の風景や場面を表現した特徴量である。例えば参考文献6に記載のGIST記述子を用いることができる。GIST記述子は部分領域内ブロックごとに一定のオリエンテーションを持つフィルタを掛けたときの係数によって表現されるが、この場合、生成される特徴量は、フィルタの種類(ブロック数×オリエンテーション数)に依存した長さのベクトルとなる。 A landscape feature is a feature amount that represents a landscape or scene of an image. For example, the GIST descriptor described in Reference 6 can be used. The GIST descriptor is expressed by a coefficient when a filter having a certain orientation is applied to each block in the partial area. In this case, the generated feature amount depends on the type of filter (number of blocks × number of orientations). It becomes a vector of the length.
[参考文献6]A. Oliva and A. Torralba, “Building the gist of a scene: the role of global image features in recognition", Progress in Brain Research, 155, pp.23-36, 2006 [Reference 6] A. Oliva and A. Torralba, “Building the gist of a scene: the role of global image features in recognition”, Progress in Brain Research, 155, pp. 23-36, 2006
形状特徴は、画像に写る物体の形状を表す特徴量である。例えば参考文献7に記載のHistogram of Oriented Gradient(HOG)特徴量やエッジヒストグラムを用いることができる。 The shape feature is a feature amount representing the shape of an object shown in an image. For example, a Histogram of Oriented Gradient (HOG) feature amount described in Reference Document 7 or an edge histogram can be used.
[参考文献7]N. Dalal and B. Triggs, “Histograms of Oriented Gradients for Human Detection", IEEE Conference on Computer Vision and Pattern Recognition, pp.886-893, 2005 [Reference 7] N. Dalal and B. Triggs, “Histograms of Oriented Gradients for Human Detection”, IEEE Conference on Computer Vision and Pattern Recognition, pp.886-893, 2005
なお、これらの特徴量は、一つあるいは複数を利用してもよいし、その他の公知の特徴量を用いるものとしてもよい。 One or a plurality of these feature quantities may be used, or other known feature quantities may be used.
特徴量抽出部32は、上記処理によって得られた部分領域ごとの各ブロックの特徴量を、分類部34に出力し、処理を終了する。
The feature quantity extraction unit 32 outputs the feature quantity of each block for each partial region obtained by the above process to the
分類部34は、特徴量抽出部32により抽出した部分領域の各々の画像特徴ベクトルに関する類似度に基づいて、部分領域集合の部分領域の各々を一つ以上のクラスタのうちいずれかのクラスタに分類し、分類結果を候補領域決定部36に出力する。
The
分類部34では、特徴量抽出部32の特徴量の抽出において、部分領域の各々は同一の画像特徴ベクトルとして表現されているから、分類は任意のクラスタリング手法を用いることができる。例えば、K−means法などを用いることで、任意のクラスタ数に分類すればよい。クラスタ数は、例えば部分領域の総数に対してその1/4などと設定すればよい。
In the
ここで、場合によっては一部クラスタに非常に多数の部分領域が属する場合や、ごく少数の部分領域しか属さないような場合があり得る。こういったクラスタに属する部分領域は、極端に一般的な部分領域であるか、極端に稀な部分領域であることが多く、画像認識や検索等に対して効果が低い場合がある。したがって、クラスタ内の部分領域数が一定以上(例えば1000以上)となるようなクラスタ及び一定以下(例えば3以下)となるようなクラスタを、削除しても構わない。 Here, depending on the case, there may be a case where a very large number of partial regions belong to some clusters, or a case where only a small number of partial regions belong. The partial areas belonging to such clusters are often extremely general partial areas or extremely rare partial areas, and may be less effective for image recognition and search. Therefore, a cluster in which the number of partial areas in the cluster is equal to or greater than a certain value (for example, 1000 or more) and a cluster that is equal to or less than a certain value (for example, 3 or less) may be deleted.
そして、分類部34は、得られた分類結果(部分領域の各々と、部分領域の各々が属するクラスタ)を候補領域決定部36に出力し、処理を終了する。
Then, the
候補領域決定部36は、分類部34により出力された分類結果を受け取り、クラスタの各々について、分類部34によって当該クラスタに分類された部分領域の各々に対する、当該部分領域の画像特徴ベクトルと、画像データベース10に格納された、当該部分領域を含む画像に対応した文書データとに基づいて、当該クラスタを代表する部分領域である候補領域を決定する。候補領域は、識別器学習部38の識別器の学習において正例として用いられる。
The candidate
候補領域決定部36の処理は、本発明の実施の形態の目的である意味的な内容を保持した画像辞書を構成する上で、要となる処理である。具体的には、下記二つの要件を満たす部分領域を格納した画像辞書を構成することを目的とする。
The process of the candidate
要件1は、画像データベース10中にある画像内に頻出するような代表的な見た目を持つ部分領域であることである。要件2は、画像データベース10中にある画像内に表れる被写体及びシーンの意味的な内容を捉えた部分領域であることである。
Requirement 1 is a partial area having a typical appearance that frequently appears in an image in the
このような部分領域は、画像データベース中に含まれる被写体やシーンを効率的に記述できるだけでなく(要件1)、同時にその意味的な内容を捉えることができるため(要件2)、特に高精度な画像認識、画像検索などを実現する画像辞書として好適である。 Such a partial area not only can efficiently describe subjects and scenes included in the image database (requirement 1), but can also capture its semantic content (requirement 2) at the same time. It is suitable as an image dictionary for realizing image recognition, image search, and the like.
以下、候補領域決定部36における第1〜第4の処理について詳細に説明する。なお、候補領域決定部36の処理では、各クラスタについて、全く同一の処理を実施するため、ここでは単一のクラスタの中での処理のみを記載する。
Hereinafter, the first to fourth processes in the candidate
候補領域決定部36は、まず、第1の処理として、部分領域と文書データとの対応を取る。先に述べたように、画像データベース10には、画像(又はその所在を一意に示すアドレス)と、当該画像全体に関する意味的な内容を表す文書データが関連づけて格納されている。従って、部分領域がどの画像から抽出されたものであるかを見ることによって、その部分領域と、それが抽出された画像に関連づけられた文書データとを対応づけることができる。この第1の処理によって、全て又は一部の部分領域に、文書データが対応づけられることとなる。
The candidate
候補領域決定部36は、続いて、第2の処理として、文書データから、これを数値化した文書ベクトルを、第1の処理で文書データと対応付けられた部分領域ごとに構成する。これはいかなる公知の技術を用いても構わず、単純には単語の正規頻度によってベクトルを構成するBag−of−wordsヒストグラムを適用することができる。あるいは、単語の生起頻度で重みを付けたtf−idf法などを適用しても構わない。このような方法は、画像データベース10に登録された文書データが単語であるか、文章であるか等に依らず、一様に同一の文書ベクトルに変換し、表現することができる点で利便性が高い。
Subsequently, as a second process, the candidate
候補領域決定部36は、続いて、第3及び第4の処理を行って、部分領域の画像特徴ベクトルと、これに対応づけられた文書データの文書ベクトルから、候補領域を発見する。
Subsequently, the candidate
第3及び第4の処理の目的は、各クラスタに属する部分領域及びこれに対応する文書ベクトルの中から、より少数の候補領域を絞り込むことである。より厳密には、あるクラスタ内にM個の部分領域の画像特徴ベクトル、及び対応する文書ベクトルが存在するとしたとき、これらからT<M個の候補領域を選び、決定する。 The purpose of the third and fourth processes is to narrow down a smaller number of candidate areas from the partial areas belonging to each cluster and the corresponding document vectors. More precisely, when there are M feature image vectors and corresponding document vectors in a certain cluster, T <M candidate regions are selected and determined from these.
候補領域決定部36の第3及び第4の処理の基本的な方針は、処理対象のクラスタに属する部分領域のうち、クラスタを代表する度合いを代表度スコアとして算出し、その代表度スコアの上位T個を候補領域として選ぶことである。このような代表度スコアを求める方法はさまざまある。例えば、K−means法などでは、クラスタの中心、すなわち、クラスタに属する他の部分領域との距離の総和が最も小さい点を代表とする。この観点では、代表度スコアはその他のデータとの距離の近さで与えられるといえる。同様の考えに基づき、本実施の形態においても、他の部分領域との距離の近さによって定めるものと考え、クラスタリングを用いてこれを決定する。以下、この第3の処理におけるクラスタリングについて詳述する。
The basic policy of the third and fourth processes of the candidate
候補領域決定部36の第3の処理では、処理対象のクラスタについて、当該クラスタに属する部分領域集合について、部分領域の画像特徴ベクトル及び文書ベクトルのそれぞれに対してのクラスタリングを個別に適用し、代表度スコアを求める。なお、本処理は、画像特徴ベクトルの場合も、文書ベクトルの場合も、いずれも同一の処理を適用するため、画像特徴ベクトルの場合についてのみ述べる。
In the third process of the candidate
用いるクラスタリング法はいかなる公知のものを用いてよい。ただし、クラスタ内にある部分領域の特徴量のばらつきには差があることが多いこと、及び、画像特徴ベクトル(又は文書ベクトル)の種類によって、それぞれ適当な距離(ユークリッド距離、コサイン類似度、又はヒストグラムインターセクション等)は異なることに鑑み、K−means法などのように、事前にクラスタ数を指定する必要があったり、距離が特定の種類に限定されるものよりも、好ましくは、Affinity Propagationのようにクラスタ数を自動的に推定でき、かつ、任意の距離に基づいてクラスタリングできるものである方がよい。 Any known clustering method may be used. However, depending on the fact that there are often differences in the variation in the feature values of the partial areas in the cluster, and depending on the type of the image feature vector (or document vector), an appropriate distance (Euclidean distance, cosine similarity, or In view of the fact that histogram intersections and the like are different, it is preferable to specify Affinity Propagation, as compared to the case where it is necessary to specify the number of clusters in advance or the distance is limited to a specific type, such as the K-means method. It is better that the number of clusters can be automatically estimated and clustering can be performed based on an arbitrary distance.
候補領域決定部36の第3の処理におけるクラスタリングの結果、K個の画像特徴ベクトルのクラスタ中心が発見できる。候補領域決定部36は、これらのクラスタ中心を基準に、代表度スコアを求める。
As a result of the clustering in the third process of the candidate
候補領域決定部36の第3の処理では、例えば、クラスタ中心と当該クラスタに属する部分領域との平均(あるいは、中央値など、任意の統計量を用いてもよい)距離が最も小さいものを代表クラスタ中心として代表度スコア1.0を与え、以下、この代表クラスタ中心からの距離が近いものから順にスコアが高くなるように代表度スコアを決定すればよい。この際の代表度スコアの計算式は、代表クラスタ中心からの距離をdistとしたとき、例えば
In the third process of the candidate
などと求めることができる。 Etc.
あるいは、K個のクラスタ中心の内、最も近いクラスタ中心からの距離をdistとして求め、同様に上記(1)式を用いて代表度スコアを求めるものとしてもよい。 Alternatively, the distance from the nearest cluster center among the K cluster centers may be obtained as dist, and similarly, the representative score may be obtained using the above equation (1).
ここでは画像特徴ベクトルによる代表度スコアを求めたが、同様に文書ベクトルによる代表度スコアも求める。仮に、部分領域の中に、対応付けられた文書ベクトルが存在しないものがある場合、当該文書ベクトルによる代表度スコアは、予め定めた値として定めるとしてよい。例えば一様に0とする、あるいは、得られている文書ベクトルの平均値又は中央値とする等とすればよい。 Although the representativeness score based on the image feature vector is obtained here, the representativeness score based on the document vector is obtained similarly. If there is a partial area for which there is no associated document vector, the representative score based on the document vector may be determined as a predetermined value. For example, it may be set to 0 uniformly, or an average value or median value of the obtained document vectors.
候補領域決定部36は、次に、第4の処理において、処理対象のクラスタについて先に求めた画像特徴ベクトル及び文書ベクトルによる代表度スコアに基づいて、候補領域を選定する。最終的には、画像特徴ベクトル及び文書ベクトルそれぞれから独立に求めた代表度スコアの双方に基づいて、最終的な代表度スコアを求め、これに基づいて候補領域を選択する。
Next, in the fourth process, the candidate
最も単純には、画像特徴ベクトル及び文書ベクトルの各代表度スコアの和が大きい順に部分領域をランキングし、これが最も高いものからT個を候補領域として選定すればよい。なお、画像特徴ベクトル及び文書ベクトルの各代表度スコアの和を用いるのではなく、画像特徴ベクトル及び文書ベクトルの代表度スコアの内、大きい方、又は小さい方のいずれかを当該部分領域の代表度スコアとして採用しても構わない。 In the simplest case, the partial areas are ranked in descending order of the sum of the representative scores of the image feature vector and the document vector, and T elements having the highest sum are selected as candidate areas. Instead of using the sum of the representative scores of the image feature vector and the document vector, either the larger or the smaller representative score of the image feature vector and the document vector is used as the representative degree of the partial area. You may adopt as a score.
あるいは、画像特徴ベクトル及び文書ベクトルそれぞれの代表度スコアの大きい順に、それぞれをランキングして、2つの異なるランキングリストを作成したのち、これらの2つのランキングリストを一つのランキングリストに統合することによって実施してもよい。2つのランキングを統合する際には、例えば、ボルダ得点方式を用いることができる。この場合、各ランキングリスト1位〜M位にそれぞれ順にM点〜1点を与え、その合算値が大きい順にT個を候補領域として選択すればよい。このような方法は、代表度スコアにノイズが含まれているような場合でも、その順位のみによって頑健に有効な候補領域を選定することができるため、頑健で高精度である。 Or, by ranking each image feature vector and document vector in descending order of representative score, creating two different ranking lists, and then integrating these two ranking lists into one ranking list May be. When integrating the two rankings, for example, the Boulder scoring method can be used. In this case, M points to 1 point may be given to the ranking lists 1 to M, respectively, and T may be selected as a candidate region in descending order of the sum. Such a method is robust and highly accurate because, even when the representativeness score includes noise, a robustly effective candidate region can be selected only by its rank.
そして、候補領域決定部36は、第4の処理によって選定されたクラスタごとの候補領域を識別器学習部38に出力し、処理を終了する。
Then, the candidate
識別器学習部38は、第1の処理として、クラスタの各々について、候補領域決定部36により選択された候補領域の画像特徴ベクトルを正例とし、当該クラスタに分類されなかった任意の部分領域の集合に含まれる部分領域の画像特徴ベクトルを負例として、識別器を学習し、これを画像辞書50として出力する。
As a first process, the
一般に、正例及び負例が与えられた下で識別器を学習する手法は様々な公知のものが存在する。任意のものを用いてよいが、本実施の形態ではSVMや、[参考文献8]記載のSupport vector regression(SVR)を用いることができる。 In general, there are various known methods for learning a discriminator under given positive examples and negative examples. An arbitrary one may be used, but in this embodiment, SVM or Support vector regi- sion (SVR) described in [Reference 8] can be used.
[参考文献8]A.J. Smola, B. Scholkopf “A Tutorial on Support Vector Regression", Statistics and Computing, Vol. 14, Issue 3, pp.199-222, 2004 [Reference 8] A.J. Smola, B. Scholkopf “A Tutorial on Support Vector Regression”, Statistics and Computing, Vol. 14, Issue 3, pp.199-222, 2004
いずれの場合にも、あるクラスタに対して、その候補領域を正例、及び、当該クラスタに属さない任意の部分領域を負例として、ある部分領域がどの程度当該クラスタに帰属するかを表す確度を求めるための識別器を得ることができる。そして、クラスタごとに得られた識別器を画像辞書50として出力し、処理を終了すればよい。
In any case, with respect to a certain cluster, the candidate region is a positive example, and an arbitrary partial region that does not belong to the cluster is a negative example. Can be obtained. Then, the classifier obtained for each cluster is output as the
なお、識別器学習部38は、第2の処理として、一度学習した識別器を、予め用意した新たな画像データセットに適用して、当該画像データセットに含まれる部分領域がどのクラスタに属するかを判定し、各クラスタに分類した後、その分類結果を候補領域決定部36に出力しても構わない。その後、候補領域決定部36は、各クラスタに分類された新たな画像データセットについて、各クラスタの候補領域を、先に述べた候補領域決定部36の処理によって決定した後、再度、識別器学習部38に出力する。このようにすることによって、新たな画像データセットが追加された際には、その画像データセットを用いて繰り返し候補領域の決定と識別器の学習を所定の条件が満たされるまで実行し、得られた識別器を画像辞書50として出力することで、画像データセットの偏りの影響を低減し、特定の意味的な内容を持つ部分領域に対して反応する(高い正の値を出力する)ような識別器を得ることができる。
As the second process, the
なお、本実施の形態では識別器学習部38は、第1及び第2の処理を実行するが、第1の処理のみを実行して取得した識別器を画像辞書50として出力するようにしてもよい。
In the present embodiment, the
以上が、画像辞書構成装置の各処理部の処理詳細の一例である。 The above is an example of the processing details of each processing unit of the image dictionary construction device.
<本発明の第1の実施の形態に係る画像表現装置の構成> <Configuration of Image Representation Device According to First Embodiment of the Present Invention>
次に、本発明の第1の実施の形態に係る画像表現装置の構成について説明する。図2に示すように、本発明の第1の実施の形態に係る画像表現装置200は、CPUと、RAMと、後述する画像表現処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この画像表現装置200は、機能的には図2に示すように画像データベース210と、演算部220とを備えている。
Next, the configuration of the image expression device according to the first embodiment of the present invention will be described. As shown in FIG. 2, the
画像データベース210には、少なくとも画像自体、あるいは、当該画像ファイルの所在を一意に示すアドレスが格納されているものとする。その他の構成は、画像辞書構成装置100の画像データベース10と同様である。
The
演算部220は、部分領域分割部230と、特徴量抽出部232と、表現部234と、画像辞書236とを含んで構成されている。
The
部分領域分割部230は、画像データベース210から入力された画像を読み込み、各画像を部分領域に分割、選定してこれを特徴量抽出部232に出力する。その他の構成は、画像辞書構成装置100の部分領域分割部30と同様である。
The partial
特徴量抽出部232は、部分領域分割部230によって分割された画像の部分領域からなる部分領域の集合に含まれる部分領域の各々について、解析をし、予め定めた特徴量を抽出する。当該特徴量は、表現部234に出力される。その他の構成は、画像辞書構成装置100の特徴量抽出部32と同様である。
The feature
表現部234は、特徴量抽出部232によって抽出された部分領域の各々の特徴量と、画像辞書構成装置100によって出力された画像辞書236とに基づいて、部分領域の各々について、当該部分領域がクラスタの各々に帰属する確度を算出し、算出された確度に基づいて、当該部分領域がクラスタのいずれかに属するか、又はクラスタのいずれにも属さないかを判定する。表現部234は、判定の結果に基づいて、クラスタの各々について当該クラスタに属すると判定された頻度を表すヒストグラムを、入力された画像の画像表現として出力する。
Based on the feature amounts of the partial regions extracted by the feature
以下、表現部234の処理について詳細に説明する。ここで、入力された画像に対しては、部分領域、及び各部分領域に対する特徴量が抽出されている。この元で、画像辞書構成装置100により予め学習した画像辞書236を用い、この画像に対する画像表現を得る。
Hereinafter, the processing of the
まず、表現部234は、画像辞書構成装置100における分類部34と同様の処理によって、それぞれの部分領域がいずれかの「クラスタに属する」、又は、「いずれのクラスタにも属さない」のいずれに相当するかを判定する。
First, the
最も単純には、クラスタの各々について、各クラスタKi(i=1、・・・、V)に属すると判定された頻度を求め、V次元のヒストグラムを構成することでこれを画像表現とすることができる。 Most simply, for each of the clusters, the frequency determined to belong to each cluster K i (i = 1,..., V) is obtained, and this is used as an image representation by constructing a V-dimensional histogram. be able to.
あるいは、[参考文献9]記載のSpatial Pyramid Matching(又はSpatial Pooling)と呼ばれる処理によって、頻度を計算してもよい。 Alternatively, the frequency may be calculated by a process called Spatial Pyramid Matching (or Spatial Pooling) described in [Reference 9].
[参考文献9]S. Lazebnik, C. Schmid, J. Ponce, “Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories” In Proc. IEEE Conference on Computer Vision and Pattern Recognition. Pp.2169-2178, 2006. [Reference 9] S. Lazebnik, C. Schmid, J. Ponce, “Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories” In Proc. IEEE Conference on Computer Vision and Pattern Recognition. Pp.2169-2178, 2006.
これ以外にも、一つ以上のクラスタと、それに属する要素の集合から求めることのできる任意の統計量によって画像表現を得ることができる。 In addition to this, an image representation can be obtained by an arbitrary statistic that can be obtained from one or more clusters and a set of elements belonging to the clusters.
そして、表現部234は、クラスタの各々について当該クラスタに属すると判定された頻度を表すヒストグラムを、画像表現として出力し、処理を終了する。
Then, the
<本発明の第1の実施の形態に係る画像辞書構成装置の作用> <Operation of Image Dictionary Constructing Device According to First Embodiment of the Present Invention>
次に、本発明の第1の実施の形態に係る画像辞書構成装置100の作用について説明する。画像データベース10から一つ以上の画像及び画像の各々に対応した文書データの入力を受け付けると、画像辞書構成装置100は、図3に示す画像辞書構成処理ルーチンを実行する。
Next, the operation of the image
まず、ステップS100では、画像データベース10から受け付けた一つ以上の画像及び画像の各々に対応した文書データを読み込む。
First, in step S100, one or more images received from the
ステップS102では、ステップS100で読み込まれた画像の各々を、一つ以上の部分領域の各々に分割する。 In step S102, each of the images read in step S100 is divided into one or more partial areas.
ステップS104では、ステップS102で分割された部分領域からなる部分領域集合の部分領域の各々について解析をし、部分領域ごとに特徴量として画像特徴ベクトルを抽出する。 In step S104, each partial area of the partial area set composed of the partial areas divided in step S102 is analyzed, and an image feature vector is extracted as a feature amount for each partial area.
ステップS106では、ステップS102で分割された全ての部分領域からなる部分領域集合を、ステップS104で抽出した画像特徴ベクトルに基づいて、一つ以上のクラスタのうちのいずれかに分類する。 In step S106, the partial region set including all the partial regions divided in step S102 is classified into one or more clusters based on the image feature vector extracted in step S104.
ステップS108では、ステップS106で得られたクラスタ集合から処理対象となるクラスタを選択する。 In step S108, a cluster to be processed is selected from the cluster set obtained in step S106.
ステップS110では、ステップS108で選択したクラスタについて、ステップS106で当該クラスタに分類された部分領域の集合に含まれる部分領域と、ステップS100で読み込んだ、当該部分領域を含む画像に対応する文書データとを対応づける。 In step S110, for the cluster selected in step S108, the partial area included in the set of partial areas classified into the cluster in step S106, and the document data corresponding to the image including the partial area read in step S100, and Associate.
ステップS112では、ステップS110で部分領域の各々に対応付けられた文書データに基づいて、文書ベクトルを部分領域ごとに構成する。 In step S112, a document vector is constructed for each partial area based on the document data associated with each partial area in step S110.
ステップS114では、ステップS108で選択したクラスタについて、ステップS106で当該クラスタに分類された部分領域の画像特徴ベクトルに基づいて、画像特徴ベクトルをクラスタリングすることによりクラスタ中心を求め、クラスタ中心を基準に、部分領域の各々の代表度スコアを求める。また、当該クラスタに分類された部分領域ごとにステップS112で構成された文書ベクトルに基づいて、文書ベクトルをクラスタリングすることによりクラスタ中心を求め、クラスタ中心を基準に、部分領域の各々の代表度スコアを求める。そして、当該クラスタに分類された部分領域ごとに、双方で求められた代表度スコアに基づいて、当該部分領域の代表度スコアを求める。 In step S114, for the cluster selected in step S108, the cluster center is obtained by clustering the image feature vector based on the image feature vector of the partial region classified into the cluster in step S106, and based on the cluster center, A representative score for each of the partial areas is obtained. In addition, the cluster center is obtained by clustering the document vector based on the document vector configured in step S112 for each partial region classified into the cluster, and the representative score of each partial region is determined based on the cluster center. Ask for. Then, for each partial region classified into the cluster, the representative score of the partial region is obtained based on the representative score obtained by both.
ステップS116では、ステップS108で選択したクラスタについて、ステップS114で求めた部分領域の各々の代表度スコアに基づいて、当該クラスタを代表する部分領域である候補領域を決定する。 In step S116, for the cluster selected in step S108, a candidate area that is a partial area representing the cluster is determined based on the representative score of each partial area obtained in step S114.
ステップS118では、ステップS108で選択したクラスタについて、ステップS116で決定した候補領域を正例、当該クラスタに属さない部分領域を負例として用い、識別器を学習する。 In step S118, for the cluster selected in step S108, the discriminator is learned using the candidate region determined in step S116 as a positive example and the partial region not belonging to the cluster as a negative example.
ステップS120では、全てのクラスタについて、ステップS108〜ステップS118の処理を終了したかを判定し、終了していなければ、ステップS108へ戻ってクラスタを選択して処理を繰り返し、終了していれば、ステップS122へ移行する。 In step S120, it is determined whether or not the processing of step S108 to step S118 has been completed for all the clusters. If not, the process returns to step S108 to select the cluster and repeat the processing. The process proceeds to step S122.
ステップS122では、ステップS118において全てのクラスタについて学習された識別器を画像辞書として出力し、処理を終了する。 In step S122, the classifiers learned for all clusters in step S118 are output as an image dictionary, and the process ends.
<本発明の第1の実施の形態に係る画像表現装置の作用> <Operation of Image Representation Device According to First Embodiment of the Present Invention>
次に、本発明の第1の実施の形態に係る画像表現装置200の作用について説明する。画像データベース210から画像の入力を受け付けると、画像表現装置200は、図4に示す画像表現処理ルーチンを実行する。
Next, the operation of the
まず、ステップS200では、画像データベース210から受け付けた画像を読み込む。
First, in step S200, an image received from the
ステップS202では、ステップS200で読み込まれた画像を、一つ以上の部分領域の各々に分割する。 In step S202, the image read in step S200 is divided into one or more partial areas.
ステップS204では、ステップS202で分割された部分領域からなる部分領域集合の部分領域の各々について特徴量を抽出する。 In step S204, a feature amount is extracted for each partial area of the partial area set including the partial areas divided in step S202.
ステップS206では、ステップS204で抽出された部分領域の各々の特徴量と、上記の画像辞書構成処理ルーチンによって出力された画像辞書236とに基づいて、部分領域の各々について、当該部分領域がクラスタの各々に帰属する確度を算出する。
In step S206, based on the feature amount of each partial area extracted in step S204 and the
ステップS208では、ステップS206で算出された部分領域の各々がクラスタの各々に帰属する確度に基づいて、それぞれの部分領域がクラスタのいずれかに属するか、又はクラスタのいずれにも属さないかを判定する。 In step S208, based on the probability that each of the partial areas calculated in step S206 belongs to each of the clusters, it is determined whether each partial area belongs to any of the clusters or does not belong to any of the clusters. To do.
ステップS210では、ステップS208の判定の結果に基づいて、クラスタの各々について当該クラスタに属すると判定された頻度を表すヒストグラムを構成する。 In step S210, a histogram representing the frequency determined to belong to the cluster for each cluster is constructed based on the result of the determination in step S208.
ステップS212では、ステップS212で構成されたヒストグラムを画像表現として出力し、処理を終了する。 In step S212, the histogram formed in step S212 is output as an image expression, and the process ends.
以上説明したように、本発明の第1の実施の形態に係る画像辞書構成装置によれば、入力された画像を部分領域に分割し、部分領域の各々をクラスタに分類し、クラスタの各々について、部分領域の画像特徴ベクトルと、部分領域を含む画像全体に対応した文書データとに基づいて、クラスタの代表となる部分領域である候補領域を決定し、候補領域を正例として用いて識別器を学習することにより、画像中の意味のある特徴的な領域を発見することが可能な画像表現を得るための画像辞書を構成することができる。 As described above, according to the image dictionary construction device according to the first exemplary embodiment of the present invention, the input image is divided into partial areas, each of the partial areas is classified into clusters, and each of the clusters is classified. A candidate area that is a representative partial area of the cluster is determined based on the image feature vector of the partial area and the document data corresponding to the entire image including the partial area, and the classifier is used as a positive example By learning the above, it is possible to construct an image dictionary for obtaining an image expression capable of finding a meaningful characteristic region in the image.
また、本発明の第1の実施の形態に係る画像表現装置によれば、入力された画像を部分領域に分割し、部分領域の各々の特徴量と、画像辞書とに基づいて、部分領域の各々について、クラスタのいずれかに属するか、クラスタのいずれにも属さないかを判定し、判定の結果に基づいて、クラスタの各々についてクラスタに属すると判定された頻度を表すヒストグラムを、入力された画像の画像表現として出力することにより、画像中の意味のある特徴的な領域を発見することが可能な画像表現を求めることができる。 In addition, according to the image representation device according to the first exemplary embodiment of the present invention, the input image is divided into partial areas, and the partial area is determined based on the feature amounts of the partial areas and the image dictionary. For each, it was determined whether it belongs to any of the clusters or not to any of the clusters, and a histogram representing the frequency determined to belong to the cluster was input for each of the clusters based on the determination result. By outputting the image as an image representation of the image, an image representation capable of finding a meaningful characteristic area in the image can be obtained.
<本発明の第2の実施の形態に係る画像辞書構成装置の構成> <Configuration of Image Dictionary Configuration Device According to Second Embodiment of the Present Invention>
次に、本発明の第2の実施の形態に係る画像辞書構成装置の構成について説明する。なお、第1の実施の形態の画像辞書構成装置100と同様の構成となる部分については、同一符号を付して説明を省略する。
Next, the configuration of the image dictionary configuration device according to the second embodiment of the present invention will be described. In addition, about the part which becomes the structure similar to the image
上記図1に示すように、本発明の第2の実施の形態に係る画像辞書構成装置100は、CPUと、RAMと、後述する画像辞書構成処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この画像辞書構成装置100は、機能的には図1に示すように画像データベース10と、演算部20と、画像辞書50とを備えている。
As shown in FIG. 1, the image
第2の実施の形態に係る画像データベース10には、画像自体、あるいは、当該画像ファイルの所在を一意に示すアドレスが格納されているものとする。また、格納されている画像の内、一つ以上の画像に対応した文書データが格納されているものとする。この文書データは、画像の一部領域に関する意味的な内容を表すものである。
It is assumed that the
また、文書データに記載されている画像の一部領域の内容は、その画像のどこの領域について記述したものであるのか、その位置情報と共に記述されているものとする。例えば、画像の一部の部分領域において長方形で囲まれる区間については、縦横ピクセル位置、及び、幅と高さの4点の位置が位置情報として与えられていれば十分である。この場合、画像のどこにどんな意味的な内容が含まれているかについて特定性が高まるため、より精密に意味的な内容を表す画像辞書、及び画像表現を得ることができる。 Further, it is assumed that the contents of the partial area of the image described in the document data are described along with the position information about which area of the image is described. For example, for a section surrounded by a rectangle in a partial area of the image, it is sufficient if the vertical and horizontal pixel positions and the positions of four points of width and height are given as position information. In this case, since the specificity is increased as to what semantic content is included in the image, it is possible to obtain an image dictionary and an image expression that represent the semantic content more precisely.
第2の実施の形態に係る演算部20は、部分領域分割部30と、特徴量抽出部32と、分類部34と、候補領域決定部36と、識別器学習部38とを含んで構成されている。
The
第2の実施の形態に係る候補領域決定部36は、分類部34により出力された分類結果を受け取り、クラスタの各々について、分類部34によって当該クラスタに分類された部分領域の各々に対する、当該部分領域の特徴量と、画像データベース10に格納された、当該部分領域を含む画像の一部領域に対応した文書データとに基づいて、クラスタを代表する部分領域である候補領域を決定する。
The candidate
第2の実施の形態に係る候補領域決定部36は、まず、第1の処理として、部分領域と文書データの対応を取る。先に述べたように、画像データベース10には、画像(又はその所在を一意に示すアドレス)と、当該画像の一部領域に関する意味的な内容を表す文書データが関連づけて格納されている。従って、部分領域がどの画像から抽出されたものであるかを見ることによって、その部分領域と、部分領域が抽出された画像に関連づけられた文書データとを対応づけることができる。第2の実施の形態では、文書データが画像の一部領域について記述したものであり、その領域の位置情報も併せて格納されているため、これに基づいて直接部分領域と文書データの対応づけを行う。例えば、領域の重なり割合を用いて関連づけることができる。つまり、重なる領域の割合(文書データの割り当てられた領域)と(部分領域)の積により得られる領域のサイズに対する、その和により得られる領域のサイズの比率が閾値以上(例えば0.5)の割合となった場合に、当該部分領域にその文書データを対応づければよい。例えば、ある文書データが画像位置(横36ピクセル、縦56ピクセル)に、サイズ(幅18ピクセル、高さ24ピクセル)で割り当てられているとする。また、例えば、ある画像領域が(横40ピクセル、縦60ピクセル)の位置に(幅20ピクセル、高さ20ピクセル)で取られたとしよう。このとき、重なり割合は、(36+18-40)×20/(18×24+20×20-(36+18-40)×20)= 0.51である。仮に、閾値を0.5と設定していたならば、この部分領域には当該文書データを対応づけることとなる。なお、第2の実施の形態に係る候補領域決定部36における第1の処理以降の第2〜第4の処理は、第1の実施の形態に係る候補領域決定部36における第2〜第4の処理と同様である。
The candidate
なお、第2の実施の形態に係る画像辞書構成装置の他の構成及び作用は、第1の実施の形態の画像辞書構成装置100と同様であるため詳細な説明を省略する。
The other configuration and operation of the image dictionary configuration apparatus according to the second embodiment are the same as those of the image
<本発明の第2の実施の形態に係る画像表現装置の構成> <Configuration of Image Representation Device According to Second Embodiment of the Present Invention>
次に、本発明の第2の実施の形態に係る画像表現装置の構成について説明する。なお、第1の実施の形態の画像表現装置200と同様の構成となる部分については、同一符号を付して説明を省略する。
Next, the configuration of the image expression device according to the second embodiment of the present invention will be described. In addition, about the part which becomes the structure similar to the
上記図2に示すように、本発明の第2の実施の形態に係る画像表現装置200は、CPUと、RAMと、後述する画像表現処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この画像表現装置200は、機能的には図2に示すように画像データベース210と、演算部220とを備えている。
As shown in FIG. 2, the
なお、第2の実施の形態に係る画像表現装置の他の構成及び作用は、第1の実施の形態の画像表現装置200と同様であるため詳細な説明を省略する。
Note that other configurations and operations of the image expression device according to the second embodiment are the same as those of the
以上説明したように、本発明の第2の実施の形態に係る画像辞書構成装置によれば、入力された画像を部分領域に分割し、部分領域の各々をクラスタに分類し、クラスタの各々について、部分領域の画像特徴ベクトルと、部分領域を含む画像の一部領域に対応した文書データとに基づいて、クラスタの代表となる部分領域である候補領域を決定し、候補領域を正例として用いて識別器を学習することにより、画像中の意味のある特徴的な領域を発見することが可能な画像表現を得るための画像辞書を構成することができる。 As described above, according to the image dictionary construction device according to the second exemplary embodiment of the present invention, an input image is divided into partial areas, each of the partial areas is classified into clusters, and each of the clusters is classified. Based on the image feature vector of the partial area and the document data corresponding to the partial area of the image including the partial area, a candidate area that is a partial area representing the cluster is determined, and the candidate area is used as a positive example. By learning the discriminator, it is possible to construct an image dictionary for obtaining an image expression capable of finding a meaningful characteristic area in the image.
また、本発明の第2の実施の形態に係る画像表現装置によれば、入力された画像を部分領域に分割し、部分領域の各々の特徴量と、画像辞書とに基づいて、部分領域の各々について、クラスタのいずれかに属するか、クラスタのいずれにも属さないかを判定し、判定の結果に基づいて、クラスタの各々についてクラスタに属すると判定された頻度を表すヒストグラムを、入力された画像の画像表現として出力することにより、画像中の意味のある特徴的な領域を発見することが可能な画像表現を求めることができる。 In addition, according to the image expression device according to the second exemplary embodiment of the present invention, the input image is divided into partial areas, and based on the feature amount of each partial area and the image dictionary, the partial area For each, it was determined whether it belongs to any of the clusters or not to any of the clusters, and a histogram representing the frequency determined to belong to the cluster was input for each of the clusters based on the determination result. By outputting the image as an image representation of the image, an image representation capable of finding a meaningful characteristic area in the image can be obtained.
また、上述した実施の形態における画像辞書構成装置によれば、画像特徴のみならず、これに付随する意味的な内容を指し示す文書データを参考情報として用いることで、被写体やシーンの意味的な内容を表す部分領域を発見し、これを基に画像辞書を構成することができる。 Further, according to the image dictionary construction device in the above-described embodiment, the semantic content of the subject or the scene is obtained by using, as reference information, document data indicating not only the image feature but also the semantic content accompanying the image feature. Can be found, and an image dictionary can be constructed based on this.
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。 The present invention is not limited to the above-described embodiment, and various modifications and applications can be made without departing from the gist of the present invention.
例えば、上述した第1の実施の形態では、画像全体に対応する文書データを、第2の実施の形態では、画像の一部領域に対応する文書データをそれぞれ用いて、部分領域と文書データとを対応付け、文書ベクトルを構成したが、これに限定されるものではなく、画像の全体及び一部領域に対応する文書データを用いてもよい。ここで、部分領域と対応付けられる文書データとして、画像全体に対応する文書データ及び一部領域に対応する文書データの両方が存在する場合には、一部領域に対応する文書データを優先して文書ベクトルを構成してもよいし、画像全体に対応する文書データ及び一部領域に対応する文書データを合わせた文書データについて文書ベクトルを構成するようにしてもよい。 For example, in the first embodiment described above, the document data corresponding to the entire image is used, and in the second embodiment, the document data corresponding to the partial area of the image is used. However, the present invention is not limited to this, and document data corresponding to the entire image and a partial area may be used. Here, when both document data corresponding to the entire image and document data corresponding to the partial area exist as document data corresponding to the partial area, the document data corresponding to the partial area is given priority. A document vector may be configured, or a document vector may be configured for document data that is a combination of document data corresponding to the entire image and document data corresponding to a partial area.
10、210 画像データベース
20、220 演算部
30、230 部分領域分割部
32、232 特徴量抽出部
34 分類部
36 候補領域決定部
38 識別器学習部
50、236 画像辞書
100 画像辞書構成装置
200 画像表現装置
234 表現部
250 出力部
10, 210
Claims (5)
前記部分領域分割部が、前記入力された一つ以上の画像の各々を、一つ以上の部分領域に分割するステップと、
前記特徴量抽出部が、前記部分領域分割部によって分割された前記部分領域からなる部分領域の集合に含まれる前記部分領域の各々について、特徴量を抽出するステップと、
前記分類部が、前記特徴量抽出部により抽出した前記部分領域の各々の特徴量に関する類似度に基づいて、前記部分領域の集合の前記部分領域の各々を一つ以上のクラスタのうちのいずれかのクラスタに分類するステップと、
前記候補領域決定部が、前記クラスタの各々について、前記分類部によって前記クラスタに分類された部分領域の各々に対する、前記部分領域の特徴量と、前記入力された、前記部分領域を含む画像に対応した文書データとに基づいて、前記クラスタを代表する部分領域である候補領域を決定するステップと、
前記識別器学習部が、前記クラスタの各々について、前記候補領域決定部によって決定された候補領域の前記特徴量を正例、前記クラスタに分類されなかった前記部分領域の前記特徴量を負例として、前記部分領域が前記クラスタに属するか否かを識別するための識別器を学習して取得し、前記クラスタの各々について取得した前記識別器を、画像辞書として出力するステップと、
を含む画像辞書構成方法。 Each of the input one or more images and a document corresponding to each of the images, including a partial region dividing unit, a feature amount extracting unit, a classifying unit, a candidate region determining unit, and a classifier learning unit An image dictionary construction method in an image dictionary construction device for constructing an image dictionary from data,
The partial region dividing unit dividing each of the inputted one or more images into one or more partial regions;
The feature amount extracting unit extracting a feature amount for each of the partial regions included in a set of partial regions formed by the partial regions divided by the partial region dividing unit;
The classification unit selects each of the partial regions of the set of partial regions from one or more clusters based on the similarity regarding the feature amount of each of the partial regions extracted by the feature amount extraction unit. Categorizing into a cluster of
For each of the clusters, the candidate region determination unit corresponds to the feature amount of the partial region and the input image including the partial region for each of the partial regions classified into the cluster by the classification unit. Determining a candidate area that is a partial area representing the cluster based on the document data;
For each of the clusters, the classifier learning unit uses the feature amount of the candidate region determined by the candidate region determination unit as a positive example, and sets the feature amount of the partial region not classified into the cluster as a negative example. Learning and obtaining a discriminator for identifying whether or not the partial region belongs to the cluster, and outputting the discriminator obtained for each of the clusters as an image dictionary;
An image dictionary construction method including:
前記入力された一つ以上の画像の各々を、一つ以上の部分領域に分割する部分領域分割部と、
前記部分領域分割部によって分割された前記部分領域からなる部分領域の集合に含まれる前記部分領域の各々について、特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部により抽出した前記部分領域の各々の特徴量に関する類似度に基づいて、前記部分領域の集合の前記部分領域の各々を一つ以上のクラスタのうちのいずれかのクラスタに分類する分類部と、
前記クラスタの各々について、前記分類部によってクラスタに分類された部分領域の各々に対する、前記部分領域の特徴量と、前記入力された、前記部分領域を含む画像に対応した文書データとに基づいて、前記クラスタを代表する部分領域である候補領域を決定する候補領域決定部と、
前記クラスタの各々について、前記候補領域決定部によって決定された候補領域の前記特徴量を正例、前記クラスタに分類されなかった前記部分領域の前記特徴量を負例として、前記部分領域が前記クラスタに属するか否かを識別するための識別器を学習して取得し、前記クラスタの各々について取得した前記識別器を、画像辞書として出力する識別器学習部と、
を含む画像辞書構成装置。 Each of one or more images received as input, and an image dictionary configuration device that configures an image dictionary from document data corresponding to each of the images,
A partial area dividing unit that divides each of the input one or more images into one or more partial areas;
A feature amount extraction unit that extracts a feature amount for each of the partial regions included in the set of partial regions formed by the partial regions divided by the partial region dividing unit;
Each of the partial areas of the set of partial areas is classified into one of one or more clusters based on the similarity regarding the feature quantities of the partial areas extracted by the feature quantity extraction unit. A classification section;
For each of the clusters, based on the feature amount of the partial region for each of the partial regions classified into clusters by the classification unit, and the input document data corresponding to the image including the partial region, A candidate area determination unit that determines a candidate area that is a partial area representing the cluster;
For each of the clusters, the partial region is the cluster, with the feature amount of the candidate region determined by the candidate region determination unit as a positive example and the feature amount of the partial region not classified into the cluster as a negative example. A classifier learning unit that learns and acquires a classifier for identifying whether or not it belongs to, and outputs the classifier acquired for each of the clusters as an image dictionary;
An image dictionary construction apparatus including:
前記部分領域分割部が、入力された画像を一つ以上の部分領域に分割するステップと、
前記特徴量抽出部が、前記部分領域の各々について、特徴量を抽出するステップと、
前記表現部が、前記特徴量抽出部により抽出した前記部分領域の各々の特徴量と、請求項1記載の画像辞書構成方法によって出力された前記画像辞書とに基づいて、前記部分領域の各々について、前記部分領域が前記クラスタの各々に帰属する確度を算出し、前記算出された確度に基づいて、前記部分領域が前記クラスタのいずれかに属するか、又は前記クラスタのいずれにも属さないかを判定し、前記判定の結果に基づいて、前記クラスタの各々について前記クラスタに属すると判定された頻度を表すヒストグラムを、前記入力された画像の画像表現として出力するステップと、
を含む画像表現方法。 An image expression method in an image expression device including a partial region dividing unit, a feature amount extraction unit, and an expression unit,
The partial region dividing unit divides the input image into one or more partial regions;
The feature amount extracting unit extracting a feature amount for each of the partial regions;
The each of the partial regions based on the feature amount of each of the partial regions extracted by the feature amount extraction unit and the image dictionary output by the image dictionary construction method according to claim 1. , Calculating the accuracy that the partial region belongs to each of the clusters, and based on the calculated accuracy, whether the partial region belongs to any of the clusters or does not belong to any of the clusters Determining and outputting, as an image representation of the input image, a histogram representing the frequency determined to belong to the cluster for each of the clusters based on the determination result;
An image representation method including:
前記部分領域の各々について、特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部により抽出した前記部分領域の各々の特徴量と、請求項2記載の画像辞書構成装置によって出力された前記画像辞書とに基づいて、前記部分領域の各々について、前記部分領域が前記クラスタの各々に帰属する確度を算出し、前記算出された確度に基づいて、前記部分領域が前記クラスタのいずれかに属するか、又は前記クラスタのいずれにも属さないかを判定し、前記判定の結果に基づいて、前記クラスタの各々について前記クラスタに属すると判定された頻度を表すヒストグラムを、前記入力された画像の画像表現として出力する表現部と、
を含む画像表現装置。 A partial area dividing unit that divides the input image into one or more partial areas;
A feature amount extraction unit that extracts a feature amount for each of the partial regions;
The partial area is determined for each of the partial areas based on the feature quantities of the partial areas extracted by the feature quantity extraction unit and the image dictionary output by the image dictionary construction device according to claim 2. Calculating the accuracy belonging to each of the clusters, and determining whether the partial region belongs to any of the clusters or does not belong to any of the clusters based on the calculated accuracy; An expression unit that outputs a histogram representing the frequency determined to belong to the cluster for each of the clusters as an image representation of the input image;
An image expression apparatus including:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014261008A JP6283308B2 (en) | 2014-12-24 | 2014-12-24 | Image dictionary construction method, image representation method, apparatus, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014261008A JP6283308B2 (en) | 2014-12-24 | 2014-12-24 | Image dictionary construction method, image representation method, apparatus, and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2016122279A true JP2016122279A (en) | 2016-07-07 |
| JP6283308B2 JP6283308B2 (en) | 2018-02-21 |
Family
ID=56329046
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2014261008A Expired - Fee Related JP6283308B2 (en) | 2014-12-24 | 2014-12-24 | Image dictionary construction method, image representation method, apparatus, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6283308B2 (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2022144738A (en) * | 2021-03-19 | 2022-10-03 | 京セラドキュメントソリューションズ株式会社 | Information extraction system and information extraction program |
| JP2025100469A (en) * | 2023-12-21 | 2025-07-03 | エルジー シーエヌエス カンパニー リミテッド | Method and apparatus for analyzing scrap iron through image segmentation |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011118481A (en) * | 2009-11-30 | 2011-06-16 | Fuji Xerox Co Ltd | Program and apparatus for processing image |
| JP2012022419A (en) * | 2010-07-13 | 2012-02-02 | Yahoo Japan Corp | Learning data creation device, learning data creation method, and program |
| JP2013120441A (en) * | 2011-12-06 | 2013-06-17 | Fuji Xerox Co Ltd | Image identification information offering program, and image identification information offering device |
| US20140270495A1 (en) * | 2013-03-14 | 2014-09-18 | Microsoft Corporation | Multiple Cluster Instance Learning for Image Classification |
-
2014
- 2014-12-24 JP JP2014261008A patent/JP6283308B2/en not_active Expired - Fee Related
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011118481A (en) * | 2009-11-30 | 2011-06-16 | Fuji Xerox Co Ltd | Program and apparatus for processing image |
| JP2012022419A (en) * | 2010-07-13 | 2012-02-02 | Yahoo Japan Corp | Learning data creation device, learning data creation method, and program |
| JP2013120441A (en) * | 2011-12-06 | 2013-06-17 | Fuji Xerox Co Ltd | Image identification information offering program, and image identification information offering device |
| US20140270495A1 (en) * | 2013-03-14 | 2014-09-18 | Microsoft Corporation | Multiple Cluster Instance Learning for Image Classification |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2022144738A (en) * | 2021-03-19 | 2022-10-03 | 京セラドキュメントソリューションズ株式会社 | Information extraction system and information extraction program |
| JP2025100469A (en) * | 2023-12-21 | 2025-07-03 | エルジー シーエヌエス カンパニー リミテッド | Method and apparatus for analyzing scrap iron through image segmentation |
| JP7775432B2 (en) | 2023-12-21 | 2025-11-25 | エルジー シーエヌエス カンパニー リミテッド | Method and apparatus for analyzing iron scrap through image segmentation |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6283308B2 (en) | 2018-02-21 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10394878B2 (en) | Associating still images and videos | |
| Jiao et al. | SAR images retrieval based on semantic classification and region-based similarity measure for earth observation | |
| US20130282712A1 (en) | Combined semantic description and visual attribute search | |
| CN107209860A (en) | Using block features to optimize multiclass image classification | |
| US10489681B2 (en) | Method of clustering digital images, corresponding system, apparatus and computer program product | |
| JP6017277B2 (en) | Program, apparatus and method for calculating similarity between contents represented by set of feature vectors | |
| Dharani et al. | Content based image retrieval system using feature classification with modified KNN algorithm | |
| CN103995864B (en) | A kind of image search method and device | |
| CN110442749B (en) | Video frame processing method and device | |
| Kim et al. | Classification and indexing scheme of large-scale image repository for spatio-temporal landmark recognition | |
| JP6283308B2 (en) | Image dictionary construction method, image representation method, apparatus, and program | |
| JP5833499B2 (en) | Retrieval device and program for retrieving content expressed by high-dimensional feature vector set with high accuracy | |
| CN120849648A (en) | Image retrieval method, device and storage medium based on multi-dimensional feature fusion | |
| Morsillo et al. | Youtube scale, large vocabulary video annotation | |
| JP6364387B2 (en) | Feature generation apparatus, method, and program | |
| KR101758869B1 (en) | Classification apparatus and method of multi-media contents | |
| JP6134246B2 (en) | Hash function generation method, hash value generation method, hash function generation device, hash value generation device, hash function generation program, and hash value generation program | |
| Xie et al. | K-means clustering based on density for scene image classification | |
| JP2014146207A (en) | Searching device, program and method for speedy search through representation of content by set of binary characteristic vector | |
| Histograms | Bi-level classification of color indexed image histograms for content based image retrieval | |
| Feng et al. | Image retrieval system based on bag of view words model | |
| JP2017215784A (en) | Object detection device, method, and program | |
| Liu et al. | Creating descriptive visual words for tag ranking of compressed social image | |
| Pertusa et al. | MirBot: A multimodal interactive image retrieval system | |
| Xu | Cross-Media Retrieval: Methodologies and Challenges |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170228 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180116 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180123 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180126 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6283308 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |