JP2015158848A - Image retrieval method, server, and image retrieval system - Google Patents
Image retrieval method, server, and image retrieval system Download PDFInfo
- Publication number
- JP2015158848A JP2015158848A JP2014034008A JP2014034008A JP2015158848A JP 2015158848 A JP2015158848 A JP 2015158848A JP 2014034008 A JP2014034008 A JP 2014034008A JP 2014034008 A JP2014034008 A JP 2014034008A JP 2015158848 A JP2015158848 A JP 2015158848A
- Authority
- JP
- Japan
- Prior art keywords
- image
- feature quantity
- image feature
- feature amount
- transformation matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/167—Detection; Localisation; Normalisation using comparisons between temporally consecutive images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、画像検索システム及び方法に関し、計算機での情報検索に関する。 The present invention relates to an image search system and method, and relates to information search in a computer.
近年、凶悪犯罪の増加やセキュリティ意識の向上に伴い、店舗や空港、道路などの人が集まる場所に、多くの監視カメラが設置されつつある。これらの監視カメラで撮影された映像は、監視レコーダなどの蓄積装置に格納され、必要に応じて閲覧される。しかしながら、IPカメラ(ネットワーク接続カメラ)の普及によってネットワーク経由で多数のカメラが接続可能になり、また蓄積装置の大容量化が進んだことも相まって、膨大な量の映像が蓄積されつつある。したがって、従来のように目視で全映像データを確認することは非常に困難になっている。 In recent years, with the increase in violent crimes and security awareness, many surveillance cameras are being installed in places where people gather, such as stores, airports, and roads. Images taken by these surveillance cameras are stored in a storage device such as a surveillance recorder and viewed as necessary. However, with the widespread use of IP cameras (network connection cameras), a large number of cameras can be connected via a network, and the capacity of storage devices has been increased. Accordingly, it is very difficult to visually confirm all video data as in the prior art.
そこで、蓄積装置の大量の映像データの中から、特定の人物や物体が映っている場面を検索して提示するために、様々な類似検索技術が提案されている。ここで、類似検索技術とは、ユーザが指定した検索クエリに類似したデータを対象データ内から探して、その結果を提示する技術を指す。特に、類似画像検索技術とは、画像自体から抽出される色合いや形状、構図等の特徴量を用いて、特徴量間の類似度が大きいデータを検索する技術である。例えば、人物を検索する際には、顔画像のエッジパターンや服の色ヒストグラムなどのベクトルデータを特徴量として用いることができる。また、特徴量ベクトル間の距離が小さいほど類似度が大きくなる。 Therefore, various similar search techniques have been proposed in order to search and present a scene where a specific person or object is shown from a large amount of video data stored in the storage device. Here, the similar search technique refers to a technique in which data similar to a search query designated by a user is searched from target data and the result is presented. In particular, the similar image search technique is a technique for searching for data having a high degree of similarity between feature quantities using feature quantities such as hue, shape, composition, etc. extracted from the image itself. For example, when searching for a person, vector data such as an edge pattern of a face image and a clothes color histogram can be used as a feature amount. Also, the similarity increases as the distance between feature quantity vectors decreases.
しかしながら、一般的にこのような特徴量は数百次元から数千次元といった高次元ベクトルになるため、特徴量ベクトル間の距離を計算する際に、計算量が大きいことが課題となっている。 However, in general, such a feature quantity is a high-dimensional vector such as several hundreds to thousands of dimensions. Therefore, when calculating the distance between feature quantity vectors, a large amount of computation is a problem.
そこで、高次元の特徴量ベクトルを低次元に圧縮して、距離計算の回数を削減する必要がある。高次元ベクトルを低次元に圧縮する方法として、判別分析を用いる方法が提案されている。 Therefore, it is necessary to reduce the number of distance calculations by compressing a high-dimensional feature quantity vector to a low dimension. A method using discriminant analysis has been proposed as a method of compressing a high-dimensional vector to a low dimension.
特許文献1では、入力された特徴量ベクトルから文字画像や顔画像の判別に有効な特徴量ベクトルを得るために、判別分析を用いて特徴量ベクトルを変換する技術が開示されている。
特許文献2では、文字画像を対象にして判別分析を用いて次元圧縮を行う際に、高品質な画像データと低品質な画像データの両方を用いることで、精度を向上する技術が開示されている。
判別分析とは、クラスと特徴量ベクトルが対となっている形式の学習データが与えられたとき、クラス間の分散を大きくし、クラス内の分散を小さくするような特徴量ベクトル変換行列を求めるための教師あり次元削減方法である。以下、この変換行列を判別行列と呼ぶ。 Discriminant analysis is to obtain a feature vector transformation matrix that increases the variance between classes and reduces the variance within a class when learning data in the form of pairs of classes and feature vectors is given. This is a supervised dimension reduction method. Hereinafter, this transformation matrix is referred to as a discrimination matrix.
顔画像から抽出した特徴量ベクトルに対して判別分析による次元圧縮を行う場合、同一人物の顔画像の集合を上記同一クラスとして扱う。したがって、本人同士のベクトル間距離が小さく、他人同士のベクトル間距離が大きくなるような判別行列を求めることになる。つまり、顔の向きや表情、照明条件が異なる場合でも本人同士の類似度が大きくなり、同一環境で撮影した場合でも他人同士の類似度が小さくなるように変換される。 When performing dimension compression by discriminant analysis on a feature vector extracted from a face image, a set of face images of the same person is treated as the same class. Therefore, a discriminant matrix is obtained in which the distance between the vectors of the principals is small and the distance between the vectors of the others is large. That is, even when the face direction, facial expression, and lighting conditions are different, the degree of similarity between the persons is increased, and the degree of similarity between the other persons is reduced even when shooting in the same environment.
類似画像検索に適用する場合は、学習データ全体から一つの判別行列を作成し、顔画像から抽出した特徴量ベクトル全てに対して、この判別行列を用いた射影を行う。そして、射影された特徴量ベクトル同士のベクトル間距離の計算を行い、距離の値が小さいものから順にソートすることで、類似した顔画像を検索する。よって、判別分析による次元削減を行った特徴量ベクトルを用いて類似画像検索を行うと、本人を見つける精度が向上すると推定される。 When applied to similar image search, one discriminant matrix is created from the entire learning data, and projection using this discriminant matrix is performed on all feature quantity vectors extracted from the face image. Then, the vector distance between the projected feature quantity vectors is calculated, and similar face images are searched by sorting in order from the smallest distance value. Therefore, it is presumed that the accuracy of finding the person himself / herself is improved when a similar image search is performed using a feature quantity vector subjected to dimension reduction by discriminant analysis.
以下、判別分析を用いた次元圧縮方法について説明する。ここでは、ある顔画像から抽出したd次元の特徴量ベクトルxを、判別分析によってd’次元の特徴量ベクトルに変換するための判別行列Φの生成方法について述べる。なお、d次元は、顔画像から抽出した画像の数の次元数である。また、d’次元は、圧縮後の次元数で、必要とされる精度や計算機の性能などに応じて設定された次元数である。 Hereinafter, a dimension compression method using discriminant analysis will be described. Here, a method for generating a discriminant matrix Φ for converting a d-dimensional feature quantity vector x extracted from a face image into a d′-dimensional feature quantity vector by discriminant analysis will be described. The d dimension is the number of dimensions of the number of images extracted from the face image. The d ′ dimension is the number of dimensions after compression, and is the number of dimensions set according to the required accuracy, computer performance, and the like.
まず、次式に示すように、本人同士、つまり同一クラスに属するデータを用いてクラス内分散行列Wを、他人同士、つまり異クラスに属するデータを用いてクラス間分散行列Bを計算する。 First, as shown in the following equation, intra-class variance matrix W is calculated using data belonging to each other, that is, data belonging to the same class, and inter-class variance matrix B is calculated using data belonging to other people, that is, different classes.
ここで、クラス数はc≧2、総データ数はn 、データ集合はX={x}、データ全体の平均値はavexである。また、クラスiのデータ集合をxi、データ集合xiのデータ数をni、データ数niのデータの平均をavexiとする。また、Tは転置行列を示す。 Here, the number of classes is c ≧ 2, the total number of data is n, the data set is X = {x}, and the average value of the entire data is ave x. Further, the data set of classes i x i, the number of data of the data set x i n i, the average of the data of the data number n i and ave x i. T represents a transposed matrix.
これらのクラス内分散行列Wとクラス間分散行列Bを用いて、次の(3)式を満たす固有ベクトル行列Ψと固有値行列Λを求める。 Using the intraclass variance matrix W and the interclass variance matrix B, an eigenvector matrix Ψ and an eigenvalue matrix Λ satisfying the following equation (3) are obtained.
BΨ = WΨΛ ・・・ (3) BΨ = WΨΛ (3)
ここで、Ψは固有ベクトルψi (i=0、…、d)を列ベクトルとする行列であり、Λは固有値λi)(λ1≧λ2≧…≧λd)を対角要素に持つ行列である。こうして得られた固有ベクトルを固有値の大きい順にd’個並べた行列Φ={φ1、φ2、…、φd}が判別行列となる。尚、この判別行列Φを用いて射影した空間を判別空間と呼ぶ。 Here, ψ is a matrix having eigenvectors ψi (i = 0,..., D) as column vectors, and Λ is a matrix having eigenvalues λ i) (λ 1 ≧ λ 2 ≧ ... ≧ λ d ) as diagonal elements. It is. A matrix Φ = {φ1, φ2,..., Φd} in which d ′ eigenvectors obtained in this way are arranged in descending order of eigenvalues is a discrimination matrix. A space projected using this discriminant matrix Φ is called a discriminant space.
圧縮前のd次元の特徴量ベクトルXと判別行列Φを用いて、圧縮後のd’次元の特徴量ベクトルYは次の(4)式のように表される。 Using the d-dimensional feature vector X before compression and the discriminant matrix Φ, the d′-dimensional feature vector Y after compression is expressed as the following equation (4).
Y = ΦTX ・・・ (4) Y = Φ T X (4)
なお、圧縮後の次元数d’と学習データのクラス数cは、次の(5)式のような関係になる。 Note that the dimension number d ′ after compression and the class number c of the learning data have a relationship as shown in the following equation (5).
m≦(c−1) ・・・ (5) m ≦ (c-1) (5)
また、クラス内分散行列Wを使用せずに、クラス間分散行列Bのみを使用して、次の(6)式を満たす固有ベクトル行列Ψ’と固有値行列Λ’を求めることで、判別行列を作成することも可能である。 Also, the discriminant matrix is created by obtaining the eigenvector matrix Ψ ′ and the eigenvalue matrix Λ ′ satisfying the following equation (6) using only the interclass variance matrix B without using the intraclass variance matrix W. It is also possible to do.
BΨ’=Ψ’Λ’ ・・・ (6) BΨ ′ = Ψ′Λ ′ (6)
このように判別分析を用いて次元圧縮を行う場合は、人物の顔画像が映っている学習データを予め用意し、各顔画像を人物ごとに分類する必要がある。また、人物の特徴を保持したまま特徴量を圧縮できる量には限度があるため、一般的に数千次元の特徴量を圧縮する場合は数百次元の特徴量になると考えられる。 When dimensional compression is performed using discriminant analysis in this way, it is necessary to prepare in advance learning data showing a person's face image and classify each face image for each person. In addition, since there is a limit to the amount of the feature that can be compressed while retaining the features of a person, it is generally considered that when a feature amount of several thousand dimensions is compressed, the feature amount is several hundred dimensions.
したがって、上記(5)式に示したように、数百人以上の異なる人物が写っている画像を学習データとして収集する必要がある。さらに、クラス内分散を計算するためには、同一人物の学習データも多数必要である。以上の理由から、人手で学習データを作成するためには非常に多くの時間を必要としていた。 Therefore, as shown in the above equation (5), it is necessary to collect as a learning data an image in which several hundred or more different people are shown. Furthermore, in order to calculate intra-class variance, a lot of learning data of the same person is required. For these reasons, it takes a great deal of time to create learning data manually.
一方、顔認証装置のように、人物が撮影される環境の照明条件や顔画像の向きや大きさが統制されていて変化がない場合は、一度作成した判別空間を別の場所でも使用できると考えられる。したがって、統制環境向けに次元圧縮を行う場合は、初期の学習データ作成に多くの時間が必要となるが、同じ学習データを使いまわすことが可能であった。 On the other hand, if the lighting conditions of the environment where the person is photographed and the orientation and size of the face image are controlled and do not change, as in the face authentication device, the discriminant space created once can be used in another location. Conceivable. Therefore, when dimensional compression is performed for a controlled environment, it takes a lot of time to create initial learning data, but it is possible to reuse the same learning data.
しかしながら、カメラの撮影パラメータが異なる場合や、周囲の照明条件、人物が写る角度や大きさなどの撮影環境が異なる場合、適切な判別空間は異なる可能性が高い。例えば、証明写真のようにカメラに正対した顔写真を用いて判別空間を学習した場合、斜めを向いた顔画像や照明が暗い環境では適切な射影を行うことができない。 However, when the shooting parameters of the camera are different, or when the shooting environment such as the surrounding lighting conditions and the angle and size in which a person is photographed is different, the appropriate discrimination space is likely to be different. For example, when a discriminant space is learned using a face photograph that faces the camera, such as an ID photograph, an appropriate projection cannot be performed in an environment in which the face image facing obliquely or the illumination is dark.
したがって、監視カメラのように周囲の環境や人物の行動が予測できない非統制な状況で撮影された画像を対象に類似顔画像検索を行う場合、対象となる監視カメラで撮影された顔画像を用いて学習データを作成することが望ましい。 Therefore, when a similar face image search is performed for an image taken in an uncontrolled situation where the surrounding environment and human behavior cannot be predicted, such as a surveillance camera, the face image taken by the subject surveillance camera is used. It is desirable to create learning data.
以上のことから、異なる環境で事前に作成した判別空間を用いても高精度な次元圧縮を行うことはできない。よって、実際に使用される場所に設置された多数のカメラに写った顔画像を用いて、判別空間を学習して判別行列を一つ作成し、この判別行列を用いて特徴量ベクトルを射影することが求められる。この場合、事前に学習データを作成することができないため、カメラを設置した後に学習データを作成することになり、運用コストが非常に大きくなることが課題である。 From the above, high-precision dimensional compression cannot be performed even if a discriminant space created in advance in different environments is used. Therefore, using the face images captured by a number of cameras installed in actual locations, learning the discriminant space and creating one discriminant matrix, and projecting the feature vector using this discriminant matrix Is required. In this case, since learning data cannot be created in advance, learning data is created after the camera is installed, and the operation cost is very high.
プロセッサとメモリを備えた計算機で画像を検索する画像検索方法であって、前記計算機が、入力された画像から第1のオブジェクトと第2のオブジェクトとを検知する第1のステップと、前記計算機が、前記第1のオブジェクトの第1の画像特徴量と、前記第2のオブジェクトの第2の画像特徴量とを抽出する第2のステップと、前記計算機が、前記第1のオブジェクトと前記第2のオブジェクトとが異なるオブジェクトであると判定する第3のステップと、前記計算機が、異なるオブジェクト同士となる前記第1の画像特徴量と前記第2の画像特徴量との間の分散が大きくなるような変換行列を生成する第4のステップと、前記計算機が、前記変換行列を用いて前記画像特徴量を変換した後の画像特徴量を格納する第5のステップと、を含む。 An image search method for searching for an image using a computer having a processor and a memory, wherein the computer detects a first object and a second object from an input image, and the computer , A second step of extracting a first image feature quantity of the first object and a second image feature quantity of the second object, and the computer comprising the first object and the second object. A third step of determining that the object is different from the object, and the computer having a large variance between the first image feature quantity and the second image feature quantity that are different objects A fourth step of generating a simple transformation matrix, and a fifth step of storing the image feature quantity after the computer has transformed the image feature quantity using the transformation matrix. No.
本発明によれば、異なるオブジェクト同士の特徴量間の分散Bを大きくするために、同一画像中のオブジェクトは異なるオブジェクトであると決定することで、よりよい変換行列が生成でき、検索精度が向上する。そして、変換行列を作成する学習データを自動的に収集できるため、学習データを作成する処理を低減し、システムの運用コストを抑制することができる。 According to the present invention, in order to increase the variance B between feature quantities of different objects, it is possible to generate a better transformation matrix and improve search accuracy by determining that the objects in the same image are different objects. To do. Since learning data for creating a transformation matrix can be automatically collected, the process for creating learning data can be reduced and the operating cost of the system can be suppressed.
以下、本発明の実施形態を添付図面に基づいて説明する。 Hereinafter, embodiments of the present invention will be described with reference to the accompanying drawings.
以下、本発明の第1の実施例の画像検索システムについて、図面に従って説明する。 Hereinafter, an image search system according to a first embodiment of the present invention will be described with reference to the drawings.
図1は、第1の実施例の画像検索システムの構成を示すブロック図である。 FIG. 1 is a block diagram showing the configuration of the image search system of the first embodiment.
第1の実施例の画像検索システムは、サーバ計算機110、クライアント計算機130、判別行列情報140、及び検索データベース150、カメラ160を備える。各装置は、通信基盤120によって相互に接続される。
The image search system of the first embodiment includes a server computer 110, a
サーバ計算機110は、外部インタフェース111、中央処理演算装置(CPU)112、メモリ113及び大容量外部記憶装置(HD)114を備える。
The server computer 110 includes an
外部インタフェース111は、サーバ計算機110を通信基盤120に接続するためのインタフェース(I/F)である。CPU112は、サーバ計算機110の処理を実行するプロセッサである。メモリ113は、CPU112によって実行される処理のための作業領域であり、各種データ、及び、HD114からロードされたプログラムを格納する。HD114は、ハードディスクなどの大容量記憶装置であり、CPU112によって実行されるプログラム、データ(判別行列情報140、検索データベース150)などを格納する。なお、HD114は、サーバ計算機110に接続された外部の記憶装置であってもよい。
The
クライアント計算機130は、通信基盤120に接続される計算機である。図1には1つのクライアント計算機130を示すが、任意の数のクライアント計算機130を備えてもよい。尚、クライアント計算機130と同等の機能をサーバ計算機110が備えている場合、全ての処理をサーバ計算機110で行っても良い。
The
クライアント計算機130は、いかなる構成の計算機であってもよい。図1には、典型的なクライアント計算機130の構成を示す。すなわち、図1のクライアント計算機130は、CPU131、メモリ132、I/F133、入力装置134及び出力装置135を備える。
The
CPU131は、メモリ132に格納されたプログラムを実行するプロセッサである。メモリ132は、CPU131によって実行されるプログラム等を格納する記憶装置である。I/F133は、通信基盤120に接続され、クライアント計算機130とサーバ計算機110との間の通信に使用されるインタフェースである。入力装置134は、クライアント計算機130のユーザから入力を受け付ける装置である。入力装置134は、例えば、キーボード又はマウス等である。出力装置135は、クライアント計算機130のユーザに情報を表示する装置である。例えばCRT又は液晶ディスプレイのような画像表示装置である。なお、入力装置134及び出力装置135としては、タッチセンサを備えたディスプレイを入出力装置として用いてもよい。
The
なお、本実施例の画像検索システムは、通信基盤120(ネットワーク)を介して接続されたサーバ計算機110とクライアント計算機130とがサービスを提供する構成であるが、一般的なパーソナルコンピュータが画像検索のアプリケーションによってサービスを提供する構成であってもよい。
The image search system according to the present embodiment has a configuration in which a server computer 110 and a
判別行列情報140は、特徴量ベクトルの次元圧縮を行うための判別行列(または変換行列)300を格納している。なお、判別行列300を転置した行列を格納しても良い。
The
また、検索データベース150は、検索対象とする画像から抽出された画像特徴量(特徴量ベクトル)を格納するためのデータベースであり、例えば、特徴量管理情報200(図2参照)を格納する。
The
カメラ160aから160nは、監視対象エリアに設置したカメラである。以下、カメラ160aから160nの総称を、カメラ160と呼ぶ。なお、処理対象となる映像もしくは画像を事前に撮影しており、クライアント計算機130からサーバ計算機110に全ての映像もしくは画像を送信する場合は、カメラ160を備えなくても良い。あるいは、処理対象となる画像データ(映像または画像)を、予めHD114に格納しておいても良い。または、カメラ160から受信した画像データを、HD114に格納してもよい。
CPU112は、各プログラムの処理を実行することによって、所定の機能を提供する機能部として稼働する。例えば、CPU112は、判別行列生成プログラム400に従って処理することで判別行列生成部として機能する。ここで、判別行列生成部は、図4で示すように、画像取得部401、顔検知処理部402、人物情報生成部403、特徴量抽出部404、クラス間分散計算部405、判別行列生成部406、及び判別行列格納部407の機能部を含む。
The
また、CPU112は、検索用特徴量変換プログラム500に従って処理することで検索用特徴量変換部として機能する。ここで、検索用特徴量変換部は、図5で示すように、画像取得部501、顔検知処理部502、特徴量抽出部503、特徴量変換部504、及び特徴量格納部505の機能部を含む。
The
また、CPU112は、検索プログラム600に従って処理することで検索部として機能する。ここで、検索部は、図6で示すように、画像入力部601、顔検知処理部602、特徴量抽出部603、特徴量変換部604、類似検索部605、及び検索結果出力部606の機能部を含む。
このように、CPU112は、各プログラムが実行する複数の処理のそれぞれの機能を提供する機能部としても稼働する。計算機及び計算機システムは、これらの機能部を含む装置及びシステムである。
Further, the
As described above, the
サーバ計算機110の各機能を実現するプログラム、テーブル等の情報は、HD114や不揮発性半導体メモリ、ハードディスクドライブ、SSD(Solid State Drive)等の記憶デバイス、または、ICカード、SDカード、DVD等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。
Information such as a program and a table for realizing each function of the server computer 110 is stored in a storage device such as an
図2は、第1の実施例の特徴量管理情報200を示す説明図である。
FIG. 2 is an explanatory diagram illustrating the feature
特徴量管理情報200は、検索データID201、及び検索対象画像特徴量202を含む。検索データID201は、特徴量を識別するための識別子であり、画像データなどを紐付けるために使用される。検索対象画像特徴量202は、画像から抽出された後に判別行列300を用いて変換された特徴量ベクトルである。
The feature
なお、判別行列情報140及び検索データベース150は、サーバ計算機110が備えるHD114に格納されてもよいし、HD114とは異なる他のハードディスクに格納されてもよい。また、画像データがHD114に格納される場合、検索対象画像特徴量202に対応する画像データには検索データID201が付与される。あるいは、画像データが他の装置に格納される場合、検索対象画像特徴量202に対応する画像データに、検索データID201を付与する指示を送信しても良い。
The
図3A、図3Bは、第1の実施例の別人情報の生成を示し、カメラ160a、160bの画像である。図4は、第1の実施例の判別行列生成プログラム400で行われる判別行列生成処理の一例を示すブロック図である。
3A and 3B show generation of the different person information in the first embodiment, and are images of the
以下、図3A、図3Bと図4を使用して、判別行列生成処理について説明する。 Hereinafter, the discriminant matrix generation process will be described with reference to FIGS. 3A, 3B, and 4. FIG.
本実施例では、サーバ計算機110は判別行列生成プログラム400を実行することで、判別行列生成部として機能する。判別行列生成部は、画像取得部401、顔検知処理部402、人物情報生成部403、特徴量抽出部404、クラス間分散計算部405、判別行列生成部406、及び判別行列格納部407によって、判別行列300の生成を実行する。
In this embodiment, the server computer 110 functions as a discriminant matrix generation unit by executing the discriminant
なお、図1に示したCPU112は、HD114に格納された各種プログラムをメモリ113にロードし、メモリ113にロードされた各種プログラムを読み出し、読み出された各種プログラムを実行することによって、画像取得部401、顔検知処理部402、人物情報生成部403、特徴量抽出部404、クラス間分散計算部405、判別行列生成部406、及び判別行列格納部407の機能部を上述したように実現する。
The
まず、画像取得部401では、サーバ計算機110が、カメラ160から通信基盤120を経由して、画像を取得する。画像取得部401では、学習データとして画像を取得する。なお、サーバ計算機110は、カメラ160から映像を取得した後に映像をデコードして、フレーム毎の画像を取得しても良い。また、カメラ160で撮影した画像もしくは映像を一旦クライアント計算機130に保存しておき、クライアント計算機130から通信基盤120を経由して、サーバ計算機110に画像もしくは映像を送信し、画像取得部401で受信しも良い。あるいは、学習データとして予め撮影した画像をHD114に格納しておき、HD114から画像を取得(または入力)しても良い。
First, in the
次に、顔検知処理部402では、取得した画像に対して顔検知処理を実行し、画像に写った人物の顔領域を取得する。顔検知処理については、周知または公知の技術を適用すればよいので、ここでは詳述しない。
Next, the face
次に、人物情報生成部(オブジェクト情報生成部)403では、顔検知処理部402で検知した顔領域を対象に、一台のカメラ160から取得した画像に複数の人物が写っている場合、同時に写っている人物は別人であるとして、人物情報を生成する。
Next, in the person information generation unit (object information generation unit) 403, when a plurality of persons are captured in an image acquired from one camera 160 for the face area detected by the face
例えば、図3A、図3Bを用いて説明すると、カメラ160aから取得した画像310に人物320A、320B、320Cが映っていた場合、人物320A、320B、320Cはそれぞれ別の人物であると推定される。よって、人物情報生成部403は人物320Aと320Bと302Cは各々が別人であるという情報を生成する。
For example, with reference to FIGS. 3A and 3B, when the
また、カメラ160bから取得した画像330に人物340A、340B、340C、340Dが映っていた場合、人物340A、340B、340C、340Dもそれぞれ別の人物であると推定される。よって、人物情報生成部403は340Aと340Bと340Cと340Dも各々が別人であるという情報を生成する。
Further, when the
人物情報生成部403は、同一人物という情報や別人の情報として、例えば、顔領域の人物毎に識別子を付与し、別人には異なる識別子を付与すれば良い。
For example, the person
次に、特徴量抽出部404では、顔検知処理部402で検知した顔領域から、顔画像特徴量としてd次元の特徴量ベクトルを抽出する。顔画像特徴量は例えば、エッジパターンや色ヒストグラム等に基づいて作成される多次元ベクトルである。なお、特徴量ベクトルの算出については前記エッジパターンや色ヒストグラム等の周知または公知の技術を用いればよいのでここでは詳述しない。
Next, the feature
なお、前記人物情報生成部403と特徴量抽出部404の処理は、並列して行っても良いし、どちらかを先に行っても良い。
Note that the processing of the person
次に、クラス間分散計算部405では、次の(7)式に従って、顔領域から抽出した特徴量ベクトルを用いて、クラス間分散Bを計算する。
Next, the interclass
ここで、学習データの全フレーム数をnfとすると、クラス数cj≧2はj番目のフレーム画像から検出された顔画像(顔領域)の数であり、xijはj番目のフレーム画像のi番目の顔領域から抽出された特徴量ベクトルであり、特徴量ベクトルのデータの平均はavexjである。 Here, if the total number of frames of learning data is n f , the class number c j ≧ 2 is the number of face images (face regions) detected from the j-th frame image, and x ij is the j-th frame image. The feature amount vector extracted from the i-th face area of the image, and the average of the feature amount vector data is ave x j .
次に、判別行列生成部(変換行列生成部)406では、次の(8)式を満たす固有ベクトル行列ΨBと固有値行列ΛBを求める。 Next, the discriminant matrix generation unit (conversion matrix generation unit) 406 obtains an eigenvector matrix Ψ B and an eigenvalue matrix Λ B that satisfy the following equation (8).
BΨB = ΨBΛB ・・・ (8) BΨ B = Ψ B Λ B (8)
ここで、ΨBは固有ベクトルψBi(i=0、…、d)を列ベクトルとする行列であり、ΛBは、固有値λBi(λB1≧λB2≧…≧λBd)を対角要素に持つ行列である。こうして得られた固有ベクトルψBiを固有値λBiの大きい順にd’個並べた行列ΦB=[ΦB1,ΦB2,…,ΦBd]がd列×d’行の判別行列300となる。この判別行列ΦBを用いて後述する変換を行うことでクラス間の分散Bは大きくなる。
Here, Ψ B is a matrix having eigenvectors ψ Bi (i = 0,..., D) as column vectors, and Λ B is a diagonal element with eigenvalues λ Bi (λ B1 ≧ λ B2 ≧... ≧ λ Bd ). Is a matrix. A matrix Φ B = [Φ B1 , Φ B2 ,..., Φ Bd ] obtained by arranging d ′ eigenvectors ψ Bi in the descending order of the eigenvalue λ Bi is a
最後に、判別行列格納部407では、判別行列(変換行列)300を判別行列情報(変換行列情報)140に格納する。
Finally, the discriminant
以上の処理により、サーバ計算機110は入力された画像から顔領域を抽出し、顔領域から人物情報と特徴量ベクトルを抽出する。そして、サーバ計算機110は、抽出した人物情報と特徴量ベクトルからクラス間分散Bが大きくなるような判別行列300を算出し、判別行列情報140に格納する。
Through the above processing, the server computer 110 extracts a face area from the input image, and extracts person information and a feature vector from the face area. Then, the server computer 110 calculates a
図5は、第1の実施例の検索用特徴量変換プログラム500で行われる特徴量ベクトル登録処理を示すブロック図である。
FIG. 5 is a block diagram illustrating a feature vector registration process performed by the search
本実施例では、サーバ計算機110は検索用特徴量変換プログラム500を実行することで、検索用特徴量変換部として機能する。検索用特徴量変換部は、画像取得部501、顔検知処理部502、特徴量抽出部503、特徴量変換部504、及び特徴量格納部505によって、特徴量ベクトルを特徴量管理情報200に登録する処理を実行する。なお、画像取得部501、顔検知処理部502、特徴量抽出部503は、それぞれ図4に示した画像取得部401、顔検知処理部402、特徴量抽出部404と同一でも良いし、異なっても良い。
In this embodiment, the server computer 110 functions as a search feature value conversion unit by executing the search feature
まず、画像取得部501では、カメラ160から通信基盤120を経由して、類似画像の検索の対象となる画像を取得する。なお、映像を取得した後に映像をデコードして画像を取得しても良い。また、クライアント計算機130から通信基盤120を経由して、類似画像検索の対象となる画像もしくは映像を送信し、画像取得部501で受け取っても良い。あるいは、予め撮影した画像をHD114に格納しておき、HD114から画像を取得(または入力)しても良い。
First, the
次に、顔検知処理部502では、取得した画像に対して顔検知処理を実行し、画像に写った人物の顔領域を取得する。顔検知処理は、前記図4の顔検知処理部402と同様であり、周知または公知の技術を適用すればよい。
Next, the face
次に、特徴量抽出部503では、顔検知処理部502で検知した顔領域から、顔画像の特徴量としてd次元の特徴量ベクトルを抽出する。顔画像特徴量は例えば、エッジパターンや色ヒストグラムに基づいて作成される多次元ベクトルである。顔検知処理部502で複数の顔領域を検出した場合は、全ての顔領域からd次元の特徴量ベクトルを抽出する。なお、特徴量ベクトルは前記図4の特徴量抽出部404と同様であり、周知または公知の技術を用いればよい。
Next, the feature
次に、特徴量変換部504では、特徴量抽出部503で抽出したd次元の特徴量ベクトルと、判別行列情報140から取得した判別行列300の積を計算して、d’次元の特徴量ベクトルに変換する。なお、次元数はd’<dで、判別行列300によって特徴量ベクトルの圧縮を行う。
Next, the feature
最後に、特徴量格納部505では、特徴量変換部504で得たd’次元の特徴量ベクトルを検索データベース150の特徴量管理情報200に格納する。
Finally, the feature
ここで、特徴量格納部505は、特徴量管理情報200の検索対象画像特徴量202に特徴量ベクトルを格納し、この特徴量ベクトルに対応する検索データID201を付与する。なお、特徴量管理情報200には、検索処理時に高速検索を行うために、クラスタリングやハッシュを生成し、インデクス情報も併せて格納しても良い。また、特徴量管理情報200には、検索対象画像特徴量202に対応する画像の識別子や所在(ファイルパス等)を付加しても良い。
Here, the feature
上記処理によって、サーバ計算機110は、入力された画像(または映像)からd次元の特徴量ベクトルを算出し、判別行列300を用いてd’次元の特徴量ベクトルに変換し、次元圧縮を行って特徴量管理情報200に特徴量ベクトルを格納する。
Through the above processing, the server computer 110 calculates a d-dimensional feature vector from the input image (or video), converts it into a d′-dimensional feature vector using the
図6は、第1の実施例の検索プログラム600で行われる検索処理を示すブロック図である。
FIG. 6 is a block diagram showing search processing performed by the
本実施例では、サーバ計算機110は検索プログラム600を実行することで、検索部として機能する。検索部は、画像入力部601、顔検知処理部602、特徴量抽出部603、特徴量変換部604、類似検索部605、及び検索結果出力部606によって、検索処理を実行する。なお、顔検知処理部602、特徴量抽出部603、特徴量変換部604は、それぞれ図4に示した顔検知処理部402、特徴量抽出部404、特徴量変換部504と同一でも良いし、異なっても良い。
In this embodiment, the server computer 110 functions as a search unit by executing the
まず、画像入力部601では、クライアント計算機130から通信基盤120を経由して、類似画像検索の検索キー(検索対象)となる人物が写っている画像(検索対象画像)が入力され、この画像を受け付ける。
First, in the
次に、顔検知処理部602では、入力された画像(検索対象画像)に対して顔検知処理を実行し、画像に写った人物の顔領域を取得する。顔検知処理は、前記図4の顔検知処理部402と同様である。
Next, the face
次に、特徴量抽出部603では、顔検知処理部502で検知した顔領域から、顔画像特徴量としてd次元の特徴量ベクトルを抽出する。顔画像特徴量は例えば、エッジパターンや色ヒストグラムに基づいて作成される多次元ベクトルである。顔検知処理部502で複数の顔領域を検出した場合は、全ての顔領域からd次元の特徴量ベクトルを抽出する。なお、顔検知処理部602で複数の顔領域が検知された場合は、クライアント計算機130から検索キーとなる顔領域を指定しても良いし、複数の顔領域全てから特徴量ベクトルを抽出して、今後の処理に使用しても良い。なお、特徴量ベクトルは前記図4の特徴量抽出部404と同様である。
Next, the feature
次に、特徴量変換部604では、特徴量抽出部603で抽出したd次元の特徴量ベクトルと、判別行列情報140から取得した判別行列300の積を計算して、d’次元の特徴量ベクトルを得る。なお、複数の検索キーを用いる場合は、判別行列300を用いて全ての特徴量ベクトルを変換する。なお、特徴量の変換は、前記図5の特徴量変換部504と同様である。
Next, the feature
次に、類似検索部605では、検索キーである特徴量ベクトルと、検索データベース150に格納されている検索対象画像特徴量202のベクトル間距離を計算する。そして、ベクトル間距離の小さいものから昇順に、検索データID201を並べる。
Next, the
最後に、検索結果出力部606では、並び替えられた検索データID201を元に検索結果をクライアント計算機130に出力する。例えば、検索データID201に画像データが紐付けられている場合は、画像データ列を出力する。
Finally, the search
以上の処理によって、サーバ計算機110は、クライアント計算機130から入力された検索対象画像について、d’次元の特徴量ベクトルを算出し、検索データベース150の検索対象画像特徴量202のベクトル間距離を算出する。そして、サーバ計算機110は、ベクトル間距離の小さい順に検索データID201または画像をクライアント計算機130へ検索結果として送信する。なお、サーバ計算機110が検索結果としてクライアント計算機130へ送信する検索データID201の数または画像の数は、所定の値以内に制限しても良い。
With the above processing, the server computer 110 calculates the d′-dimensional feature vector for the search target image input from the
なお、本実施例1では、検出した顔領域から抽出した顔特徴量を対象に説明したが、画像の中から検出できるものであれば、全て特徴量の対象にすることができる。例えば、人物領域から抽出した人物特徴量や、人物以外の物体の特徴量を用いても良い。 In the first embodiment, the facial feature amount extracted from the detected face area has been described as an object. However, any feature feature can be used as long as it can be detected from an image. For example, a person feature amount extracted from a person region or a feature amount of an object other than a person may be used.
以上を踏まえ、本実施例1に記載の画像検索システムは、入力された画像から第1のオブジェクトと第2のオブジェクトとを検知し、前記第1のオブジェクトの第1の画像特徴量と、前記第2のオブジェクトの第2の画像特徴量とを抽出し、前記第1のオブジェクトと前記第2のオブジェクトとが異なるオブジェクトであると決定し、異なるオブジェクト同士となる前記第1の画像特徴量と前記第2の画像特徴量との間の分散Bが大きくなるような変換行列(判別行列300)を生成し、前記変換行列を用いて変換した後の画像特徴量を用いて検索することを特徴とする。 Based on the above, the image search system according to the first embodiment detects the first object and the second object from the input image, the first image feature amount of the first object, A second image feature amount of a second object is extracted, the first object and the second object are determined to be different objects, and the first image feature amount to be different objects from each other; Generating a transformation matrix (discriminant matrix 300) such that a variance B between the second image feature amount and the second image feature amount is increased, and performing a search using the image feature amount after being transformed using the transformation matrix; And
かかる特徴により、人手を介することなく、本人同士のベクトル間距離が小さく、他人同士のベクトル間距離が大きくなるような変換行列が生成でき、検索精度が向上する。そして、変換行列を作成する学習データを自動的に収集できるため、学習データを作成する処理を低減し、システムの運用コストを抑制することができる。 With this feature, it is possible to generate a transformation matrix in which the distance between vectors between individuals is small and the distance between vectors between others is large without any human intervention, and search accuracy is improved. Since learning data for creating a transformation matrix can be automatically collected, the process for creating learning data can be reduced and the operating cost of the system can be suppressed.
以下、本発明の第2の実施例の画像検索システムについて、図7、図8に従って説明する。 The image search system according to the second embodiment of the present invention will be described below with reference to FIGS.
第2の実施例の画像検索システムは、前記第1の実施の例の画像検索システムと同じコンピュータシステムを用いて実現したものであり、構成を示すブロック図、特徴量管理情報を示す説明図、特徴量ベクトル登録処理を示すブロック図、検索処理を示すブロック図は同一である。 The image search system of the second embodiment is realized by using the same computer system as the image search system of the first embodiment, a block diagram showing a configuration, an explanatory diagram showing feature quantity management information, The block diagram showing the feature vector registration process and the block diagram showing the search process are the same.
図7は、第2の実施例の別人情報および同一人物情報の生成を示す模式図であり、図8は、第2の実施例の判別行列生成処理を示すブロック図である。 FIG. 7 is a schematic diagram showing generation of different person information and identical person information in the second embodiment, and FIG. 8 is a block diagram showing discrimination matrix generation processing in the second embodiment.
以下、図7と図8を使用して、第2の実施例の判別行列生成処理について説明する。 Hereinafter, the discriminant matrix generation process of the second embodiment will be described with reference to FIGS.
本実施例2では、サーバ計算機110は判別行列生成プログラム400を実行することで、判別行列生成部として機能する。判別行列生成部は、図8で示すように、画像取得部801、顔検知処理部802、人物追跡部803、人物情報生成部804、特徴量抽出部805、クラス間分散計算部806、クラス内分散計算部807、判別行列生成部808、及び判別行列格納部809によって、判別行列300の生成を実行する。
In the second embodiment, the server computer 110 functions as a discriminant matrix generation unit by executing the discriminant
まず、画像取得部801では、サーバ計算機110が、カメラ160から通信基盤120を経由して、画像を取得する。画像取得部801では、前記実施例1と同様に、学習データとして画像を取得する。
First, in the
なお、サーバ計算機110は、カメラ160から映像を取得した後に映像をデコードして、フレーム毎の画像を取得しても良い。また、カメラ160または他のカメラで撮影した画像もしくは映像を一旦クライアント計算機130に保存しておき、クライアント計算機130から通信基盤120を経由して、サーバ計算機110に画像もしくは映像を送信し、画像取得部801で受信しも良い。あるいは、学習データとして予め撮影した画像をHD114に格納しておき、HD114から画像を取得(または入力)しても良い。
The server computer 110 may acquire the image for each frame by decoding the video after acquiring the video from the camera 160. In addition, an image or video captured by the camera 160 or another camera is temporarily stored in the
次に、顔検知処理部802では、取得した画像に対して顔検知処理を実行し、画像に写った人物の顔領域を取得する。顔検知0処理は、前記実施例1の図4に示した顔検知処理部402と同様であり、周知または公知の技術を適用すればよい。
Next, the face
次に、人物追跡部803では、連続したフレーム(画像)中に写った人物を追跡する。顔検知処理部802で複数の顔領域を検知した場合は、それぞれの顔領域を追跡する。人物追跡部803の顔領域の追跡は、異なるフレーム間で同一人物の顔領域を関連付けるもので、周知または公知の技術を用いればよいので、ここでは詳述しない。
Next, the
次に、人物情報生成部804では、顔検知処理部802で検知した顔領域を対象に、一台のカメラ160から取得した画像に複数の人物が写っている場合、同時に写っている人物は別人であるとして、別人用人物情報を生成する。別人用人物情報として、画像中の顔領域に人物IDを付与しても良いし、別人という情報のみを保持しておいても良い。さらに、人物追跡部803で、追跡した顔領域は同一人物であるとして、同一人物用人物情報を生成する。同一人物用人物情報として、人物IDを付与してグループ化しても良い。このように人物追跡部803は、サーバ計算機110に入力された複数の画像間で第1のオブジェクトまたは第2のオブジェクトが同一であれば同一のオブジェクト(同一人物)として特定する。
Next, in the person
例えば、図7を用いて説明すると、カメラ160aから取得した画像(フレーム)710に顔領域(人物)720A、720B,720Cが映っていた場合、人物720A、720B,720Cはそれぞれ別の人物であると推定される。よって、人物追跡部803は、人物720Aと720Bと702Cは各々が別人であるという情報を生成する。人物追跡部803は、画像730に写っている人物740A,740B,740Cと、画像750に写っている人物760A,760B,760Cについても同様である。また、人物追跡部803は、画像710の人物720A、720B,720Cを画像730,750で追跡した結果、画像730中に740A、740B,740Cを検出し、画像750中に760A、760B,760Cを検出した場合、人物720A,740A,760Aは同一人物であり、人物720B,740B,760Bは同一人物であり、人物720C,740C,760Cは同一人物という情報を生成する。
For example, referring to FIG. 7, when face regions (persons) 720A, 720B, and 720C are shown in an image (frame) 710 acquired from the
人物情報生成部804は、同一人物という情報や別人の情報として、例えば、顔領域の人物毎に識別子を付与し、同一人物には同一の識別子を付与し、別人には異なる識別子を付与すれば良い。
For example, the person
次に、特徴量抽出部805では、顔検知処理部802で検知した顔領域から、顔画像特徴量としてd次元の特徴量ベクトルを抽出する。顔画像特徴量は例えば、エッジパターンや色ヒストグラムに基づいて作成される多次元ベクトルである。なお、人物追跡部803と人物情報生成部804の処理と、特徴量抽出部805の処理は、並列して行っても良いし、どちらかを先に行っても良い。なお、特徴量ベクトルは前記実施例1の特徴量抽出部404と同様であり、周知または公知の技術を用いればよい。
Next, the feature
次に、クラス間分散計算部806では、前記実施例1に示した(7)式に従って、顔領域から抽出した特徴量ベクトルを用いて、クラス間分散Bを計算する。
Next, the inter-class
次に、クラス内分散計算部807では、次の(9)式に従って、顔領域から抽出した特徴量ベクトルを用いて、クラス内分散Wを計算する。
Next, the intra-class
ここで、人物追跡部803で追跡された人物の数をnpとすると、pj≧2はj番目の人物から検出された顔画像(顔領域)の数であり、xijはj番目の人物のi番目の顔領域から抽出された特徴量ベクトルであり、特徴量ベクトルのデータの平均はavexjである。
Here, assuming that the number of persons tracked by the
次に、判別行列生成部808では、次の(10)式を満たす固有ベクトル行列ΨBWと固有値行列ΛBWを求める。
Next, the discriminant
BΨBW = WΨBWΛBW ・・・ (10) BΨ BW = WΨ BW Λ BW (10)
ここで、ΨBWは固有ベクトルψBWi(i=0、…、d)を列ベクトルとする行列であり、ΛBWは固有値λBWi(λBW1≧λBW2≧…≧λBWd)を対角要素に持つ行列である。こうして得られた固有ベクトルψBWiを固有値の大きい順にd’個並べた行列ΦBW={ΦBW1,ΦBW2,…,ΦBWd']がd列×d’行の判別行列300となる。これにより、クラス間分散Bが大きく、同一のクラス内分散が小さくなるような判別行列300を求めることができる。
Here, Ψ BW is a matrix having eigenvectors ψ BWi (i = 0,..., D) as column vectors, and Λ BW has eigenvalues λ BWi (λ BW1 ≧ λ BW2 ≧... ≧ λ BWd ) as diagonal elements. It is a matrix with. A matrix Φ BW = {Φ BW1 , Φ BW2 ,..., Φ BWd ′ ] obtained by arranging d ′ eigenvectors φBWi obtained in this order in descending order of the eigenvalues becomes a
最後に、判別行列格納部809では、上記算出された判別行列300を判別行列情報140に格納する。
Finally, the discriminant
以上により、複数の画像を入力した場合、異なるクラス(顔領域)間では分散Bが大きくなる変換行列(第1変換行列)を得るのに加え、同一のクラス(顔領域)内では分散Wが小さくなる変換行列(第2変換行列)を得ることができる。これにより、本実施例2では前記実施例1の効果に加えて、同一人物の検出精度を向上させることが可能となる。 As described above, when a plurality of images are input, in addition to obtaining a transformation matrix (first transformation matrix) in which the variance B increases between different classes (face regions), the variance W is obtained in the same class (face region). A smaller transformation matrix (second transformation matrix) can be obtained. Thereby, in the second embodiment, in addition to the effects of the first embodiment, it is possible to improve the detection accuracy of the same person.
前記実施例1のクラス間分散計算部405では、1枚の画像に映っている顔画像(顔領域)ら抽出した特徴量ベクトルを用いて、クラス間分散Bを計算する例を示した。実施例3では、クラス間分散Bの計算を行う際に、1枚の画像に映っている顔画像のみを用いて計算するのではなく、前記実施例2で示したように各顔画像(顔領域)を追跡した結果、同一人物だと見なされた複数の顔画像を用いて計算しても良い。
In the first embodiment, the interclass
本実施例3では、次の(11)式に従って、顔領域から抽出した特徴量ベクトルを用いて、クラス間分散Bを計算する。 In the third embodiment, the inter-class variance B is calculated using the feature vector extracted from the face area according to the following equation (11).
ここで、学習データの全フレーム数をnfとすると、クラス数cj≧2はj番目のフレーム画像から検出された顔画像(顔領域)数である。また、yijはj番目のフレーム画像のi番目の顔領域と、追跡の結果、同一人物と見なされた他の顔画像から抽出された特徴量ベクトルの平均値であり、aveyjは特徴量ベクトルyijの平均値である。 Here, if the total number of frames of learning data is n f , the class number c j ≧ 2 is the number of face images (face regions) detected from the j-th frame image. Further, y ij is an average value of feature quantity vectors extracted from the i-th face area of the j-th frame image and other face images regarded as the same person as a result of tracking, and ave y j is a feature This is the average value of the quantity vector y ij .
すなわち、学習データとして図7で示したように複数の画像710、730、750が入力された場合、サーバ計算機110は、例えば、画像710の顔領域720Aは、画像730の顔領域740Aと、画像750の顔領域760Aと同一人物と判定する。そして、上述のようにサーバ計算機110は、3つの顔領域720A、740A、760Aの特徴量ベクトルの平均値を用いてクラス間分散Bを算出する。
That is, when a plurality of
以上のように、複数のフレーム(画像)で同一人物と見なされた顔領域の特徴量ベクトルの平均値からクラス間分散Bを演算することで、クラス間分散Bが大きくなるような判別行列300の精度を向上させることが可能となる。なお、複数の画像は、連続した画像あるいは所定時間毎の画像であればよい。
As described above, the
<変形例>
前記実施例1のクラス間分散計算部405では、1枚の画像に映っている顔画像(顔領域)ら抽出した特徴量ベクトルを用いてクラス間分散Bを計算する例を示したが、異なる画像の顔領域の特徴量ベクトルを用いてクラス間分散Bを算出しても良い。
<Modification>
In the interclass
例えば、学習データとして図7で示したように画像710、730、750を入力された場合、前記実施例2より画像710の顔領域(人物)720Aと、画像730の顔領域740Bと、画像750の顔領域760Cはそれぞれ別人としてサーバ計算機110は認識する。そして、サーバ計算機110は、3つの顔領域720A、740B、760Cの特徴量ベクトルを用いてクラス間分散Bを算出する。
For example, when the
以上のように、複数のフレーム(画像)で別人と見なされた顔領域の特徴量ベクトルからクラス間分散Bを演算することで、クラス間分散Bが大きくなるような判別行列300の精度を向上させることが可能となる。
As described above, the accuracy of the
なお、本発明において説明した計算機等の構成、処理部及び処理手段等は、それらの一部又は全部を、専用のハードウェアによって実現してもよい。 The configuration of the computer, the processing unit, the processing unit, and the like described in the present invention may be partially or entirely realized by dedicated hardware.
また、本実施例で例示した種々のソフトウェアは、電磁的、電子的及び光学式等の種々の記録媒体(例えば、非一時的な記憶媒体)に格納可能であり、インターネット等の通信網を通じて、コンピュータにダウンロード可能である。 In addition, the various software exemplified in the present embodiment can be stored in various recording media (for example, non-transitory storage media) such as electromagnetic, electronic, and optical, and through a communication network such as the Internet. It can be downloaded to a computer.
また、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明をわかりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。 The present invention is not limited to the above-described embodiments, and includes various modifications. For example, the above-described embodiments have been described in detail for easy understanding of the present invention, and are not necessarily limited to those having all the configurations described.
110 サーバ計算機
111 外部インタフェース
112 CPU(中央処理演算装置)
113 メモリ(主記憶装置)
114 HD(大容量外部記憶装置)
120 通信基盤
130 クライアント計算機、
140 判別行列情報
150 検索データベース
160a〜160n カメラ
200 特徴量管理情報
401 画像取得部
402 顔検知処理部
403 人物情報生成部
404 特徴量抽出部
405 クラス間分散計算部
406 判別行列生成部
407 判別行列格納部
501 画像取得部
502 顔検知処理部
503 特徴量抽出部
504 特徴量変換部
505 特徴量格納部
110
113 memory (main memory)
114 HD (large capacity external storage device)
120
140
Claims (15)
前記計算機が、入力された画像から第1のオブジェクトと第2のオブジェクトとを検知する第1のステップと、
前記計算機が、前記第1のオブジェクトの第1の画像特徴量と、前記第2のオブジェクトの第2の画像特徴量とを抽出する第2のステップと、
前記計算機が、前記第1のオブジェクトと前記第2のオブジェクトとが異なるオブジェクトであると判定する第3のステップと、
前記計算機が、異なるオブジェクト同士となる前記第1の画像特徴量と前記第2の画像特徴量との間の分散が大きくなるような変換行列を生成する第4のステップと、
前記計算機が、前記変換行列を用いて前記画像特徴量を変換した後の画像特徴量を格納する第5のステップと、
を含むことを特徴とする画像検索方法。 An image search method for searching for an image with a computer having a processor and a memory,
A first step in which the computer detects a first object and a second object from an input image;
A second step in which the computer extracts a first image feature quantity of the first object and a second image feature quantity of the second object;
A third step in which the computer determines that the first object and the second object are different objects;
A fourth step in which the computer generates a transformation matrix such that a variance between the first image feature quantity and the second image feature quantity that are different objects increases;
A fifth step in which the computer stores the image feature quantity after the image feature quantity is transformed using the transformation matrix;
An image search method comprising:
前記計算機が、検索対象の画像を受け付けて、前記変換行列で変換された前記画像特徴量を用いて、前記受け付けた画像の検索を行う第6のステップをさらに含むことを特徴とする画像検索方法。 The image search method according to claim 1,
The image search method further includes a sixth step in which the computer receives an image to be searched and searches for the received image using the image feature quantity converted by the conversion matrix. .
前記第1のステップは、
入力された複数の画像のそれぞれから第1のオブジェクトと第2のオブジェクトとを検知し、
前記第3のステップは、
同一の画像で前記第1のオブジェクトと前記第2のオブジェクトとが異なるオブジェクトであると判定するステップと、
前記複数の画像間で前記第1のオブジェクトまたは前記第2のオブジェクトのうち同一のオブジェクトを特定するステップと、
を含むことを特徴とする画像検索方法。 The image search method according to claim 1,
The first step includes
Detecting a first object and a second object from each of a plurality of input images;
The third step includes
Determining that the first object and the second object are different objects in the same image;
Identifying the same object among the first object or the second object between the plurality of images;
An image search method comprising:
前記第4のステップは、
異なるオブジェクト同士となる前記第1の画像特徴量と前記第2の画像特徴量との間の分散が大きくなる第1の変換行列を生成するステップと、
前記複数の画像で同一のオブジェクトとして特定された前記第1の画像特徴量または第2の画像特徴量の画像間の分散が小さくなる第2の変換行列を生成するステップと、
を含むことを特徴とする画像検索方法。 The image search method according to claim 3,
The fourth step includes
Generating a first transformation matrix having a large variance between the first image feature quantity and the second image feature quantity that are different objects;
Generating a second transformation matrix in which a variance between images of the first image feature quantity or the second image feature quantity specified as the same object in the plurality of images is reduced;
An image search method comprising:
前記第4のステップは、
前記複数の画像で同一のオブジェクトとして特定された前記第1の画像特徴量または第2の画像特徴量の平均値から前記変換行列を生成することを特徴とする画像検索方法。 The image search method according to claim 3,
The fourth step includes
An image search method, comprising: generating the transformation matrix from an average value of the first image feature quantity or the second image feature quantity specified as the same object in the plurality of images.
前記第4のステップは、
前記複数の画像のうち第1のオブジェクトと第2のオブジェクトとを含む第1の画像と第2の画像がある場合、第1の画像の第1のオブジェクトの画像特徴量と、第2の画像の第2のオブジェクトの画像特徴量から前記変換行列を生成することを特徴とする画像検索方法。 The image search method according to claim 3,
The fourth step includes
When there are a first image and a second image including a first object and a second object among the plurality of images, an image feature amount of the first object of the first image, and a second image An image search method characterized by generating the transformation matrix from the image feature amount of the second object.
前記サーバは、
入力された画像から第1のオブジェクトと第2のオブジェクトとを検知する検知処理部と、
前記第1のオブジェクトの第1の画像特徴量と、前記第2のオブジェクトの第2の画像特徴量とを抽出する特徴量抽出部と、
前記第1のオブジェクトと前記第2のオブジェクトとが異なるオブジェクトであると判定するオブジェクト情報生成部と、
異なるオブジェクト同士となる前記第1の画像特徴量と前記第2の画像特徴量との間の分散が大きくなるような変換行列を生成する変換行列生成部と、
を有することを特徴とするサーバ。 A server for retrieving images with a processor and memory,
The server
A detection processing unit for detecting the first object and the second object from the input image;
A feature amount extraction unit that extracts a first image feature amount of the first object and a second image feature amount of the second object;
An object information generating unit that determines that the first object and the second object are different objects;
A transformation matrix generation unit that generates a transformation matrix such that a variance between the first image feature quantity and the second image feature quantity that are different objects increases;
The server characterized by having.
検索対象の画像を受け付けて、前記変換行列で変換された前記画像特徴量を用いて、前記受け付けた画像の検索を行う検索部をさらに有することを特徴とするサーバ。 The server according to claim 7,
A server further comprising: a search unit that receives an image to be searched and searches for the received image using the image feature amount converted by the conversion matrix.
前記検知処理部は、
入力された複数の画像のそれぞれから第1のオブジェクトと第2のオブジェクトとを検知し、
前記オブジェクト情報生成部は、
同一の画像で前記第1のオブジェクトと前記第2のオブジェクトとが異なるオブジェクトであると判定し、前記複数の画像間で前記第1のオブジェクトまたは前記第2のオブジェクトのうち同一のオブジェクトを特定することを特徴とするサーバ。 The server according to claim 7,
The detection processing unit
Detecting a first object and a second object from each of a plurality of input images;
The object information generation unit
It is determined that the first object and the second object are different objects in the same image, and the same object among the plurality of images is specified among the first object and the second object. A server characterized by that.
前記変換行列生成部は、
異なるオブジェクト同士となる前記第1の画像特徴量と前記第2の画像特徴量との間の分散が大きくなる第1の変換行列を生成し、前記複数の画像で同一のオブジェクトとして特定された前記第1の画像特徴量または第2の画像特徴量の画像間の分散が小さくなる第2の変換行列を生成することを特徴とするサーバ。 The server according to claim 9, wherein
The transformation matrix generation unit
Generating a first transformation matrix having a large variance between the first image feature quantity and the second image feature quantity that are different objects, and specifying the same object in the plurality of images; A server that generates a second transformation matrix that reduces a variance between images of a first image feature amount or a second image feature amount.
前記変換行列生成部は、
前記複数の画像で同一のオブジェクトとして特定された前記第1の画像特徴量または第2の画像特徴量の平均値から前記変換行列を生成することを特徴とするサーバ。 The server according to claim 9, wherein
The transformation matrix generation unit
The server that generates the transformation matrix from an average value of the first image feature quantity or the second image feature quantity specified as the same object in the plurality of images.
前記変換行列生成部は、
前記複数の画像のうち第1のオブジェクトと第2のオブジェクトとを含む第1の画像と第2の画像がある場合、第1の画像の第1のオブジェクトの画像特徴量と、第2の画像の第2のオブジェクトの画像特徴量から前記変換行列を生成することを特徴とするサーバ。 The server according to claim 9, wherein
The transformation matrix generation unit
When there are a first image and a second image including a first object and a second object among the plurality of images, an image feature amount of the first object of the first image, and a second image A server that generates the transformation matrix from an image feature amount of the second object.
前記サーバに接続された撮像装置と、を有する画像検索システムであって、
前記サーバは、
前記撮像装置から入力された画像から第1のオブジェクトと第2のオブジェクトとを検知する検知処理部と、
前記第1のオブジェクトの第1の画像特徴量と、前記第2のオブジェクトの第2の画像特徴量とを抽出する特徴量抽出部と、
前記第1のオブジェクトと前記第2のオブジェクトとが異なるオブジェクトであると判定するオブジェクト情報生成部と、
異なるオブジェクト同士となる前記第1の画像特徴量と前記第2の画像特徴量との間の分散が大きくなるような変換行列を生成する変換行列生成部と、
を有することを特徴とする画像検索システム。 A server with a processor and memory;
An image search system having an imaging device connected to the server,
The server
A detection processing unit that detects a first object and a second object from an image input from the imaging device;
A feature amount extraction unit that extracts a first image feature amount of the first object and a second image feature amount of the second object;
An object information generating unit that determines that the first object and the second object are different objects;
A transformation matrix generation unit that generates a transformation matrix such that a variance between the first image feature quantity and the second image feature quantity that are different objects increases;
An image search system comprising:
前記サーバに接続されたクライアント計算機をさらに有し、
前記クライアント計算機から検索対象の画像を受け付けて、前記変換行列で変換された前記画像特徴量を用いて、前記受け付けた画像の検索を行う検索部をさらに有することを特徴とする画像検索システム。 The image search system according to claim 13,
A client computer connected to the server;
An image search system further comprising: a search unit that receives a search target image from the client computer and searches for the received image using the image feature quantity converted by the conversion matrix.
前記検知処理部は、
入力された複数の画像のそれぞれから第1のオブジェクトと第2のオブジェクトとを検知し、
前記オブジェクト情報生成部は、
同一の画像で前記第1のオブジェクトと前記第2のオブジェクトとが異なるオブジェクトであると判定し、前記複数の画像間で前記第1のオブジェクトまたは前記第2のオブジェクトのうち同一のオブジェクトを特定することを特徴とする画像検索システム。 The image search system according to claim 13,
The detection processing unit
Detecting a first object and a second object from each of a plurality of input images;
The object information generation unit
It is determined that the first object and the second object are different objects in the same image, and the same object among the plurality of images is specified among the first object and the second object. An image search system characterized by that.
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014034008A JP2015158848A (en) | 2014-02-25 | 2014-02-25 | Image retrieval method, server, and image retrieval system |
| PCT/JP2015/050897 WO2015129318A1 (en) | 2014-02-25 | 2015-01-15 | Image search method, server, and image search system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014034008A JP2015158848A (en) | 2014-02-25 | 2014-02-25 | Image retrieval method, server, and image retrieval system |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2015158848A true JP2015158848A (en) | 2015-09-03 |
Family
ID=54008647
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2014034008A Pending JP2015158848A (en) | 2014-02-25 | 2014-02-25 | Image retrieval method, server, and image retrieval system |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP2015158848A (en) |
| WO (1) | WO2015129318A1 (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2017122991A (en) * | 2016-01-05 | 2017-07-13 | キヤノン株式会社 | Information processor, information processing method and program |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7539798B2 (en) * | 2020-08-07 | 2024-08-26 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | Information search device, information search method, and program |
| CN117237867B (en) * | 2023-09-15 | 2025-03-14 | 首都机场集团有限公司北京大兴国际机场 | Self-adaptive field monitoring video target detection method and system based on feature fusion |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4770932B2 (en) * | 2002-07-16 | 2011-09-14 | 日本電気株式会社 | Pattern feature extraction method and apparatus |
| JP4992289B2 (en) * | 2006-05-11 | 2012-08-08 | コニカミノルタホールディングス株式会社 | Authentication system, authentication method, and program |
| JP5439543B2 (en) * | 2012-06-14 | 2014-03-12 | 株式会社日立製作所 | Defect classification method and apparatus |
-
2014
- 2014-02-25 JP JP2014034008A patent/JP2015158848A/en active Pending
-
2015
- 2015-01-15 WO PCT/JP2015/050897 patent/WO2015129318A1/en not_active Ceased
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2017122991A (en) * | 2016-01-05 | 2017-07-13 | キヤノン株式会社 | Information processor, information processing method and program |
| US10529103B2 (en) | 2016-01-05 | 2020-01-07 | Canon Kabushiki Kaisha | Image processing apparatus and method for collating a plurality of images |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2015129318A1 (en) | 2015-09-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN112820071B (en) | Behavior recognition method and device | |
| US9665777B2 (en) | System and method for object and event identification using multiple cameras | |
| JP6013241B2 (en) | Person recognition apparatus and method | |
| US8295545B2 (en) | System and method for model based people counting | |
| KR101385599B1 (en) | Method and apparatus for interfering montage | |
| US10719735B2 (en) | Information processing method, information processing device and video surveillance system | |
| JP7287511B2 (en) | Information processing device, suspect information generation method and program | |
| Sun et al. | Tagging and classifying facial images in cloud environments based on KNN using MapReduce | |
| Bedagkar-Gala et al. | Gait-assisted person re-identification in wide area surveillance | |
| CN107491728A (en) | A kind of human face detection method and device based on edge calculations model | |
| US8130285B2 (en) | Automated searching for probable matches in a video surveillance system | |
| JP2013206458A (en) | Object classification based on external appearance and context in image | |
| JP2015158848A (en) | Image retrieval method, server, and image retrieval system | |
| KR101826669B1 (en) | System and method for video searching | |
| Andrea et al. | Face Recognition Using Histogram of Oriented Gradients with TensorFlow in Surveillance Camera on Raspberry Pi. | |
| Nyoka et al. | Reliable Face Identification System for Criminal Investigation | |
| Dubey | Efficient content based image retrieval (CBIR) techniques: a survey | |
| Shi et al. | Kernel null-space-based abnormal event detection using hybrid motion information | |
| Jackson et al. | Deep Learning and Industrial Internet of Things (IIoT) Approach for Detecting Worker’s Protective Equipment | |
| Solmaz | Video-based detection of abnormal activities in crowd using a combination of motion-based features | |
| Sanderson et al. | Intelligent CCTV for Mass Transport Security: Challenges and Opportunities for Video and Face Processing. | |
| Hassen et al. | Multi-shot person re-identification approach based key frame selection | |
| Zhang et al. | Video entity resolution: Applying er techniques for smart video surveillance | |
| US11403880B2 (en) | Method and apparatus for facilitating identification | |
| Mishra et al. | Masked face recognition and liveness detection using deep learning technique |