JP2021131734A - Object detection device, object detection system, and object detection method - Google Patents
Object detection device, object detection system, and object detection method Download PDFInfo
- Publication number
- JP2021131734A JP2021131734A JP2020026738A JP2020026738A JP2021131734A JP 2021131734 A JP2021131734 A JP 2021131734A JP 2020026738 A JP2020026738 A JP 2020026738A JP 2020026738 A JP2020026738 A JP 2020026738A JP 2021131734 A JP2021131734 A JP 2021131734A
- Authority
- JP
- Japan
- Prior art keywords
- data
- learning
- scene
- object detection
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
【課題】計測範囲内の被写体の検出精度を向上させるための辞書データの構築を支援すること。【解決手段】物体検出装置1は、物体検出の対象である実画像データとは別の学習画像データの集合と、各学習画像データに対してタグ付けされた学習シーンデータとを有する辞書データ12Dの記憶部と、物体検出の対象である実画像データから、辞書データ12Dにより物体を検出する物体検出部15と、物体検出部15の物体検出結果から実画像データにタグ付けする実シーンデータを推定する実シーン推定部16と、推定された実シーンデータと、辞書データ12Dの学習シーンデータとの類似度を算出するシーン類似度算出部17と、追加学習に必要な学習要素データを出力する追加学習要素出力部18とを有する。【選択図】 図1[Problem] To support the construction of dictionary data to improve detection accuracy of objects within a measurement range. An object detection device 1 includes dictionary data 12D that includes a set of learning image data different from real image data that is a target of object detection, and learning scene data tagged with each learning image data. , an object detection unit 15 that detects an object from the real image data that is the target of object detection using dictionary data 12D, and real scene data that tags the real image data from the object detection result of the object detection unit 15. A real scene estimation unit 16 performs estimation, a scene similarity calculation unit 17 calculates the similarity between the estimated real scene data and the learning scene data of the dictionary data 12D, and outputs learning element data necessary for additional learning. It has an additional learning element output section 18. [Selection diagram] Figure 1
Description
本発明は、物体検出装置、物体検出システム、および、物体検出方法に関する。 The present invention relates to an object detection device, an object detection system, and an object detection method.
映像認識技術により監視カメラなどが取得した映像データを解析することで、検出対象やその周囲の物体を認識することができる。一般的な映像認識技術として、畳み込みニューラルネットワークなどの機械学習により作成した辞書データを用いる方法がある。
その機械学習の辞書データを作成するため、事前に学習用の画像データを収集する必要がある。そして収集された大量の画像データに対して、各画像データに写っている物体の種類、位置、大きさなどの説明データをタグデータとして、画像データに付与する作業(アノテーションと呼ばれる)が手動で行われる。
By analyzing the video data acquired by a surveillance camera or the like using video recognition technology, it is possible to recognize the detection target and surrounding objects. As a general image recognition technique, there is a method of using dictionary data created by machine learning such as a convolutional neural network.
In order to create the machine learning dictionary data, it is necessary to collect image data for learning in advance. Then, for a large amount of collected image data, the work (called annotation) of manually adding explanatory data such as the type, position, and size of the object reflected in each image data to the image data as tag data is performed. Will be done.
本来は様々な地点に設置した監視カメラの多様なシーンを大量に学習できればよいものの、現実的な工数を踏まえると地点やシーンのバリエーションは制限される。そのため、監視カメラの設置環境によっては、構築した辞書データによる物体検出精度が低下する場面が多々ある。本対策として、現地のカメラ画角や撮影シーンに類似した画像を追加学習することで事前に構築した辞書データを更新する方法が挙げられる。 Originally, it would be good if we could learn a large amount of various scenes of surveillance cameras installed at various points, but considering the realistic man-hours, the variations of points and scenes are limited. Therefore, depending on the installation environment of the surveillance camera, there are many cases where the object detection accuracy based on the constructed dictionary data is lowered. As a countermeasure, there is a method of updating the dictionary data constructed in advance by additionally learning an image similar to the local camera angle of view and the shooting scene.
しかし、追加学習には画像へのアノテーションなど新規の作業が発生するため、効率的に精度の高い辞書データを構築する方法が求められる。特許文献1では、現地映像に対して、複数のカメラ方向で撮影した検出対象の画像データから作成した辞書データを適用し、最も高い尤度を出力した辞書データを元に追加学習をするシステムが記載されている。
However, since new work such as annotation to images is required for additional learning, a method for efficiently constructing highly accurate dictionary data is required. In
同じ空間内に複数の監視カメラが設置されたイベント会場などでは、同じ被写体を撮影した画像データであっても、各監視カメラの設置環境のちがいによって画像データ内の被写体の撮影結果がそれぞれ違うこともある。また、同じ監視カメラで時間をずらして撮影した複数の画像データであっても、各時間での被写体の位置のちがいによって画像データ内の被写体の撮影結果がそれぞれ違うこともある。 At event venues where multiple surveillance cameras are installed in the same space, even if the image data is the same subject, the shooting results of the subject in the image data will differ depending on the installation environment of each surveillance camera. There is also. Further, even if a plurality of image data are taken by the same surveillance camera at different times, the shooting result of the subject in the image data may be different depending on the difference in the position of the subject at each time.
よって、実際に監視対象となる被写体が写る画像データ(実画像データ)と照合するための辞書データは、なるべく実画像データと近い環境下の画像データ集合から学習したものを用いることで、実画像データから被写体の検出精度が高くなる。
しかし、従来の技術では、実画像データの環境に適応した辞書データを選択するという観点では、機械学習がなされていなかった。特許文献1では、検出対象の向き情報を活用して追加学習の元になる辞書データを選定するだけである。
Therefore, the dictionary data for collating with the image data (actual image data) in which the subject to be actually monitored is captured is the actual image by using the data learned from the image data set in an environment as close as possible to the actual image data. The detection accuracy of the subject is improved from the data.
However, in the conventional technique, machine learning has not been performed from the viewpoint of selecting dictionary data suitable for the environment of real image data. In
そこで、本発明は、計測範囲内の被写体の検出精度を向上させるための辞書データの構築を支援することを、主な課題とする。 Therefore, the main object of the present invention is to support the construction of dictionary data for improving the detection accuracy of a subject within the measurement range.
前記課題を解決するために、本発明の物体検出装置は、以下の特徴を有する。
本発明は、学習計測データの集合と、前記各学習計測データに対してタグ付けされた学習シーンデータとを有する辞書データの記憶部と、
物体検出の対象である実計測データから、前記辞書データにより物体を検出する物体検出部と、
前記物体検出部の物体検出結果から前記実計測データにタグ付けする実シーンデータを推定する実シーン推定部と、
推定された前記実シーンデータと、前記辞書データの前記学習シーンデータとの類似度を算出するシーン類似度算出部と、
前記辞書データの追加学習に必要な学習要素データを出力する追加学習要素出力部とを有しており、
前記追加学習要素出力部が、
前記シーン類似度算出部が算出した類似度が所定閾値よりも高い場合、類似度の計算に使用された前記学習シーンデータに基づく前記学習要素データを出力し、
前記シーン類似度算出部が算出した類似度が所定閾値以下の場合、類似度の計算に使用された前記実シーンデータに基づく前記学習要素データを出力することを特徴とする。
その他の手段は、後記する。
In order to solve the above problems, the object detection device of the present invention has the following features.
The present invention includes a storage unit for dictionary data having a set of learning measurement data and learning scene data tagged with each learning measurement data.
An object detection unit that detects an object from the actual measurement data that is the target of object detection using the dictionary data,
An actual scene estimation unit that estimates the actual scene data to be tagged with the actual measurement data from the object detection result of the object detection unit, and
A scene similarity calculation unit that calculates the similarity between the estimated actual scene data and the learning scene data of the dictionary data, and
It has an additional learning element output unit that outputs learning element data required for additional learning of the dictionary data.
The additional learning element output unit
When the similarity calculated by the scene similarity calculation unit is higher than a predetermined threshold value, the learning element data based on the learning scene data used for the calculation of the similarity is output.
When the similarity calculated by the scene similarity calculation unit is equal to or less than a predetermined threshold value, the learning element data based on the actual scene data used for the calculation of the similarity is output.
Other means will be described later.
本発明によれば、計測範囲内の被写体の検出精度を向上させるための辞書データの構築を支援することができる。 According to the present invention, it is possible to support the construction of dictionary data for improving the detection accuracy of a subject within the measurement range.
以下、本発明の具体的な実施形態(実施例1,2)について、図面を参照しながら説明する。 Hereinafter, specific embodiments of the present invention (Examples 1 and 2) will be described with reference to the drawings.
図1は、物体検出装置1の構成図である。
物体検出装置1は演算装置としてのCPU(Central Processing Unit)、主記憶装置としてのメモリ、および、外部記憶装置としてのハードディスクを有する計算機として構成される。
この計算機は、CPUが、メモリ上に読み込んだプログラム(アプリケーションや、その略のアプリとも呼ばれる)を実行することにより、各処理部により構成される制御部(制御手段)を動作させる。
FIG. 1 is a block diagram of the
The
In this computer, the CPU operates a control unit (control means) composed of each processing unit by executing a program (also called an application or an abbreviation for application) read in the memory.
カメラ2は、計測現場に設置され、物体検出の対象となる撮影した実画像データ(実計測データ)を、カメラ情報取得部14に出力する計測装置である。物体検出装置1はカメラ2と同一筐体としてもよいし、カメラ2とは別の筐体としてもよい。なお、実施例1では、計測装置をモノラルのカメラ2とした場合について説明するが、計測装置はこれに限定されるものではなく、ステレオカメラや距離センサなどの他のセンサに応用可能である。
The camera 2 is a measuring device installed at a measurement site and outputs captured actual image data (actual measurement data) to be an object detection target to the camera
学習画像データ3(詳細は図4)は、物体検出のために実画像データと照合される学習画像データ(学習計測データ)の集合である。つまり、画像データは、物体検出の対象となる実画像データと、機械学習により辞書データ12Dを構築する素材となる学習画像データとに分類される。
以下、画像データの集合を構成する1枚の画像データ(フレーム)を「シーン」と呼ぶ。シーンデータは、各シーンの画像データごとに、アノテーションにより付与されるタグデータである。例えば、実画像データに対しては実シーンデータが付与されるとともに、学習画像データに対しては学習シーンデータが付与される。
よって、物体検出装置1は、学習シーンデータと、実シーンデータとを比較することで、辞書データ12Dの追加学習のために必要な学習画像データを特定するデータ(以下、「学習要素データ」)を出力する。
The training image data 3 (details in FIG. 4) is a set of training image data (learning measurement data) that is collated with the actual image data for object detection. That is, the image data is classified into real image data that is a target of object detection and learning image data that is a material for constructing
Hereinafter, one image data (frame) constituting a set of image data is referred to as a "scene". The scene data is tag data added by annotation for each image data of each scene. For example, the actual scene data is added to the actual image data, and the learning scene data is added to the learning image data.
Therefore, the
物体検出装置1は、アノテーション部11と、辞書生成部12と、辞書データ12Dの記憶部と、学習シーン取得部13と、カメラ情報取得部14と、物体検出部15と、実シーン推定部16と、シーン類似度算出部17と、追加学習要素出力部18とを有する。
アノテーション部11は、学習画像データ3を構成する1枚ずつの各学習画像データに対して、学習シーンデータをタグ付け(アノテーション)する(詳細は図5)。
辞書生成部12は、アノテーション部11により生成された学習シーンデータと、学習画像データ3との組み合わせデータを、辞書データ12Dとして構築する。
学習シーン取得部13は、学習画像データ3から各シーンを選択し、その選択したシーンごとの学習シーンデータを辞書データ12Dから取得する。
The
The
The
The learning
図2は、学習シーン取得部13の構成図である。
学習シーン取得部13は、アノテーションデータ解析部131と、映像解析部132と、カメラパラメータ取得部133と、学習シーン解析部134とを有する。
アノテーションデータ解析部131は、取得した学習シーンデータを解析することで、検出対象の位置分布マップを取得する(詳細は図6)。
映像解析部132は、学習画像データ3内の画像を解析し、画質などの撮影条件を撮影環境情報として取得する。
カメラパラメータ取得部133は、学習画像データ3内の画像を撮影したカメラ2のパラメータを取得する。
学習シーン解析部134は、アノテーションデータ解析部131の位置分布マップと、映像解析部132の撮影環境情報と、カメラパラメータ取得部133のカメラパラメータとを元に学習シーンを解析し、その解析結果を学習シーンデータとする(詳細は図13)。
FIG. 2 is a configuration diagram of the learning
The learning
The annotation
The
The camera
The learning
図1に戻り、物体検出装置1の各構成要素の概要を説明する。
カメラ情報取得部14は、カメラ2の撮像画像である実画像データに加え、その実画像データに付与する実シーンデータとして、例えば、撮影環境情報、および、カメラパラメータを取得する。撮影環境情報は、実画像データの撮影条件を示す情報であり、例えば、撮影時間帯情報、撮影場所情報である。なお、実シーンデータは学習シーンデータと同等なデータであり、その内容は特に限定しない。
物体検出部15は、辞書データ12Dを用いて実画像データ中に存在する検出対象の物体を検出する(詳細は図5)。
実シーン推定部16は、カメラ情報取得部14が取得した撮影環境情報およびカメラパラメータと、物体検出部15の物体検出結果とをもとに、実画像データに付与する実シーンデータを推定する。
シーン類似度算出部17は、学習シーン取得部13が取得した学習シーンデータと、実シーン推定部16が推定した実シーンデータとを比較することで、両シーン間の類似度を算出する。
Returning to FIG. 1, an outline of each component of the
The camera
The
The actual
The scene
図3は追加学習要素出力部18の構成図である。
追加学習要素出力部18は、シーン類似度算出部17が算出した類似度から、辞書データ12Dの追加学習のために必要な学習要素データを出力する。追加学習要素出力部18は、辞書適応度取得部181と、追加学習判定部182と、追加学習要素決定部183とを有する。
辞書適応度取得部181は、現在使用している辞書データ12Dの実シーンデータへの適応度を取得する。
追加学習判定部182は、辞書適応度取得部181の適応度に応じて追加学習が必要か否かを判定する。
追加学習要素決定部183は、追加学習判定部182により追加学習が必要と判定された場合に、追加学習に必要となる学習要素データを決定し、その学習要素データをユーザまたは他システムに出力する。
FIG. 3 is a configuration diagram of the additional learning
The additional learning
The dictionary fitness acquisition unit 181 acquires the fitness of the currently used
The additional
The additional learning element determination unit 183 determines the learning element data required for the additional learning when the additional
図4は、学習画像データ3の一例を示す図である。
この学習画像データ3aには、2人の検出対象(本例では人物111,121)が写っている。検知枠112,122は各人物111,121を囲う矩形であり、始点座標113,123は、検知枠112,122の学習画像データ3aにおける始点(左上点)の座標である。
FIG. 4 is a diagram showing an example of the learning image data 3.
In this
図5は、図4の学習画像データに付与された学習シーンデータである。
アノテーション部11は、シーンごとの学習画像データの各人物111,121に対して、GUIなどを利用し、手動により検知枠112,122の入力を受け付ける。さらに、アノテーション部11は、検知枠112,122で指定された各人物111,121の詳細情報の入力を受け付ける。以下、詳細情報の一例である。
・その対象が何かを示すクラス情報(ここでは人物を示す「Person」)と、そのクラス情報である確率を示す信頼度
・検知枠の始点座標113,123
・検知枠のサイズ(横幅情報と縦幅情報)
これらの入力された各情報は、学習シーンデータとして学習画像データに付与される。
FIG. 5 is learning scene data added to the learning image data of FIG.
The
-Class information indicating what the target is (here, "Person" indicating a person) and reliability indicating the probability of being the class information-Start point coordinates 113,123 of the detection frame
-Detection frame size (width information and height information)
Each of these input information is added to the learning image data as learning scene data.
辞書生成部12は、学習画像データ3と対応するタグデータ(学習シーンデータ)から、機械学習などを活用することで、画像中の人物を検出可能な辞書データ12Dを生成する。換言すると、辞書生成部12は、学習シーンデータを正解ラベルとして学習画像データ3を入力データとする推論モデルを辞書データ12Dとして生成することで、物体検出部15が実画像データを入力データとする推論モデル(辞書データ12D)により、実シーンデータ(検出する物体)を特定可能とする。
なお、本実施例では、複数の学習画像データ3とタグデータのペアから、予め複数の事象を生成してもよい。また、辞書データ12Dを生成する際のアルゴリズムについても、畳み込みニューラルネットワークやAdaBoostなど一般的なものでよく、特に限定しない。
The
In this embodiment, a plurality of events may be generated in advance from a pair of the plurality of learned image data 3 and the tag data. Further, the algorithm for generating the
図6は、アノテーションデータ解析部131の説明図である。アノテーションデータ解析部131は、図5の検知枠の情報(始点X,始点Y,横幅、縦幅)から、検出対象のクラスごとの位置分布マップを学習画像データごとに算出する。位置分布マップの生成方法としては、例えば、以下の手順1〜手順3に従う。
(手順1)学習画像データ3の位置分布210を複数の小領域(ここでは6×6個のセル)に分割する。左側の人物111の検知枠112が領域211に対応し、右側の人物121の検知枠122が領域212に対応する。
(手順2)各セルごとに、検知枠との重なり具合を割合で算出する。例えば、領域211は、縦4セル×横1セル分に重なっている。その1番上のセルとはほぼ(90%)重なり、上から2番目のセルとは100%重なり、上から3番目のセルとは100%重なり、上から4番目のセルとは40%重なっている。
(手順3)手順2の重なり具合をもとに、位置分布マップ220を生成する。ここでは、位置分布マップ220のセル値として100%の重なり具合を「1」とし、0%の重なり具合を「0」とした。
FIG. 6 is an explanatory diagram of the annotation
(Procedure 1) The
(Procedure 2) For each cell, the degree of overlap with the detection frame is calculated as a ratio. For example, the
(Procedure 3) The
なお、セルの分割数は特に限定せず、処理を実行するPCのスペックなどを考慮して決めてよく、また予め学習画像データ3の解像度を縮小した後複数の領域に分割し位置分布マップを生成してもよい。また、位置分布マップの値としては、セル内に各クラスの対象が存在する割合を示すものであれば、特に限定せず、検知枠との重なり具合を使用するのではなく、検知枠の中央座標が含まれるセルの値を「1」とし、矩形端が「0」となるような正規分布を生成して各領域の存在率を算出する方法など特に限定しない。 The number of cell divisions is not particularly limited and may be determined in consideration of the specifications of the PC that executes the processing, and the position distribution map is divided into a plurality of areas after the resolution of the learning image data 3 is reduced in advance. It may be generated. Further, the value of the position distribution map is not particularly limited as long as it indicates the ratio of the objects of each class existing in the cell, and the degree of overlap with the detection frame is not used, but the center of the detection frame. The method of calculating the abundance rate of each region by generating a normal distribution in which the value of the cell including the coordinates is "1" and the rectangular end is "0" is not particularly limited.
図2の映像解析部132は、学習画像データ3の映像を解析することで撮影環境情報を抽出する。撮影環境情報の種類としては、物体検出精度に影響し、かつ映像を解析することで取得可能条件であれば特に限定せず、例えば、シーン認識技術を活用することで屋外、屋内などの設置場所の情報、画像の輝度情報の解析による昼間、夜間などの撮影時間帯の情報、画像解析により推定したレンズぼけの情報などが挙げられる。
The
カメラパラメータ取得部133は、学習画像データ3の映像を撮影したカメラのカメラパラメータを取得する。取得するパラメータの種類としては、焦点距離やレンズ歪係数などの内部パラメータとカメラの俯角や設置高さなどの外部パラメータが挙げられ、全てのパラメータを取得する事が好まれるが、一部のパラメータのみ取得するだけでもよい。なお、カメラパラメータ取得部133において、カメラパラメータの一部を画像解析により推定してもよく、例えば、画像の消失点情報を活用しカメラの外部パラメータを推定するなどの方法を採用してもよい。
The camera
ここまでの説明では、1枚の画像データが1つのシーンを示すものとした。一方、辞書データ12Dに大量の学習画像データが含まれている場合、シーン類似度算出部17による実シーンデータと学習シーンデータとの比較処理は、学習シーンデータの数に応じて計算量も増大してしまう。そこで、学習シーン解析部134は、複数の学習シーンを1つの学習シーンとしてグルーピングすることで、比較処理の回数を削減してもよい(詳細は図13)。
In the explanation so far, it is assumed that one image data indicates one scene. On the other hand, when the
以上、図4〜図6を参照して、学習シーンデータについて説明した。以下、図7〜図12を参照して、実シーンデータについて説明する。
学習画像データと実画像データとの違いとして、学習画像データでは正解データである学習シーンデータを外部のユーザからアノテーション部11を介して教えてもらえるが、実画像データの実シーンデータは自動的に解析して取得する必要がある。
The learning scene data has been described above with reference to FIGS. 4 to 6. Hereinafter, the actual scene data will be described with reference to FIGS. 7 to 12.
The difference between the training image data and the actual image data is that the learning scene data, which is the correct answer data, can be taught by an external user via the
図7は、実画像データの一例を示す図である。この実画像データ2aには、1人の検出対象(本例では人物131)が写っている。検知枠132は人物131を囲う矩形である。
図8は、図7の実画像データに付与された実シーンデータである。実シーン推定部16は、物体検出部15によって実画像データ2aから検出された人物131の検知枠132を示す検知枠情報を用いて、カメラ2が設置された現場の実シーンデータを示す情報を取得する。
FIG. 7 is a diagram showing an example of actual image data. In this
FIG. 8 is actual scene data added to the actual image data of FIG. 7. The actual
図9は、実シーン推定部16の説明図である。
実シーン推定部16による実シーンデータを構成する位置分布マップ240の取得処理は、図6で示したアノテーションデータ解析部131による位置分布マップ220の検出処理と類似する。具体的には、実シーン推定部16は、検知枠132に対応する領域231を含む位置分布マップ230を作成する。そして、実シーン推定部16は、位置分布マップ230の領域231の各セル値に対して図8の信頼度「0.8」を重み付け(乗算)した領域241を含む信頼度付き位置分布マップ240を、実シーンデータの一部として取得する。
また、実シーン推定部16は、カメラ映像中の複数の撮像画像に対しても、信頼度付き位置分布マップ240の生成処理と同様の処理を行うことで信頼度付き位置分布マップを算出し、カメラ情報取得部14によって取得した撮影環境情報とカメラパラメータの情報を合わせて出力する。
FIG. 9 is an explanatory diagram of the actual
The acquisition process of the
Further, the actual
以上、図7〜図9の実画像データおよび実シーンデータは、図4〜図6の学習画像データおよび学習シーンデータとの間のシーン類似度が高いデータの一例として説明した。つまり、図7の実画像データ内の検知枠132と、図4の学習画像データ内の検知枠112とが略一致するために、両方の撮影環境情報も類似することで、実画像データ内の人物131と学習画像データ内の人物111とが同一人物か否かが判定しやすい。
As described above, the actual image data and the actual scene data of FIGS. 7 to 9 have been described as an example of data having a high degree of scene similarity with the learning image data and the learning scene data of FIGS. 4 to 6. That is, since the
一方、図10〜図12の実画像データおよび実シーンデータは、シーン類似度が低いデータの一例である。
同じカメラ2で撮影しているものの、図7の実画像データ2a内の左側の人物131が、図10の実画像データ2b内では中央奥側の人物141として移動してしまった。よって、図10の人物141の検知枠142に対応する図11の実シーンデータでは、検知枠142が小さいためにその信頼度も図8の「0.8」よりも小さい「0.7」となる。
また、実シーン推定部16は、図11の検知枠情報の検知枠142に対応する領域251を含む図12の位置分布マップ250を作成し、その位置分布マップ250に信頼度「0.7」を重み付け(乗算)した領域261を含む信頼度付き位置分布マップ260を作成する。
On the other hand, the actual image data and the actual scene data of FIGS. 10 to 12 are examples of data having low scene similarity.
Although the same camera 2 was used for shooting, the
Further, the actual
なお、取得する位置分布マップの数が多いほど実シーンデータを正確に把握できるものの、処理コストの低減のために取得する位置分布マップ数を削減する処理を追加してもよい。以下、位置分布マップ数を削減する処理を例示する。
・信頼度の高い位置分布マップのみを採用する方法。
・学習シーン解析部134のようにグルーピングを行う方法。例えば、位置分布マップ間の差分総和を算出し、差分が予め定めた閾値以下である場合は類似シーンとして扱い複数のグループに分類した後、各グループにおいて差分が中間値を示す位置分布マップを実シーンにおける代表の位置分布マップとする方法
・学習シーン解析部134のようにグルーピングを行う別の方法として、撮影環境情報を考慮したグルーピング(撮影環境情報が互いに類似するメンバの集合を束ねる)を行い、各グループで代表の位置分布マップのみ出力する方法。
Although the actual scene data can be grasped more accurately as the number of position distribution maps to be acquired increases, a process of reducing the number of position distribution maps to be acquired may be added in order to reduce the processing cost. Hereinafter, a process for reducing the number of position distribution maps will be illustrated.
-A method that uses only a highly reliable position distribution map.
-A method of grouping as in the learning
シーン類似度算出部17は、学習シーンと実シーンにおける位置分布マップ、撮影条件、カメラパラメータの情報から、以下に例示する方法で、シーン間の類似度を算出する。
・位置分布マップの差分総和が小さいものが類似度が高いと判定する方法
・撮影環境情報やカメラパラメータが近いものを類似度が高いと判定する方法
・複数の類似度を足し合わせた値を最終的な類似度とする方法
The scene
-A method of determining that the total difference of the position distribution map is small-A method of determining that the one with similar shooting environment information and camera parameters has a high degree of similarity-The final value is the sum of multiple similarities. How to make similarities
なお、図6の位置分布マップ220に対して、図9の位置分布マップ240は、互いに対応する画像左下側の検知結果(領域241と領域221)が類似しているため、シーン類似度は高いものとして算出される。
一方、図12の位置分布マップ260に対しては、画像中央上側の検知結果(領域261)が図6の位置分布マップ220には存在しないため(領域261に対応する位置分布マップ220のセル値が「0」であるため)、シーン類似度は低いものとして算出される。
Note that the
On the other hand, with respect to the
なお、シーン類似度算出部17で説明した「類似度」とは、1枚の実画像データ(の実シーンデータ)と1枚の学習画像データ(の学習シーンデータ)との間で比較されるのシーンごとの指標である。
一方、これから追加学習要素出力部18で説明する「適応度」とは、1枚の実画像データに対する、N枚の学習画像データ(からの学習結果である辞書データ12D)との間で計算される指標である。
適応度は、実画像データから人物などを検出する精度について、現在の辞書データ12Dに対して追加学習が必要か否かを判定するために用いられる。換言すると、現在の辞書データ12Dを用いても、所定の実画像データから人物などを検出する精度が高いなら、追加学習は不要である。
一方、類似度は、追加学習が必要と判定された後で、どのような追加学習の学習要素データをユーザに知らせて学習画像データを追加させるかを特定させるために用いられる。
The "similarity" described by the scene
On the other hand, the "fitness" described in the additional learning
The fitness is used to determine whether additional learning is required for the
On the other hand, the similarity is used to specify what kind of learning element data of the additional learning is notified to the user to add the learning image data after it is determined that the additional learning is necessary.
図3の辞書適応度取得部181は、辞書生成部12により構築した辞書データ12Dの実シーンへの適応度を取得する。適応度の取得方法としては、予め実シーンデータを付与(アノテーション)したカメラ2の実画像データを用意し、実画像データ内の全体の検出対象数における辞書データ12Dによる物体検出数の割合などの物体検出精度を採用する方法などがある。
The dictionary fitness acquisition unit 181 of FIG. 3 acquires the fitness of the
追加学習判定部182は、辞書適応度取得部181より取得した辞書データ12Dの実シーンへの適応度が予め定めた閾値より低い場合に追加学習が必要と判定する。なお、辞書適応度取得部181を省略する代わりに、カメラ2の撮像画像に対する検知枠などの検出結果をユーザにより目視確認することで、ユーザが追加学習が必要か否かを判断する構成としてもよい。
The additional
追加学習要素決定部183は、シーン類似度算出部17が求めた類似度情報を元に、以下に例示する内容の学習要素データを決定する。
・追加学習に必要な学習画像データの種類を示す画像種類情報。
・学習シーンデータのアノテーション方法などの学習方法情報。
・辞書データ12Dの構築に関する情報を示す辞書種類情報。
The additional learning element determination unit 183 determines the learning element data having the contents illustrated below based on the similarity information obtained by the scene
-Image type information indicating the type of learning image data required for additional learning.
-Learning method information such as how to annotate learning scene data.
-Dictionary type information indicating information related to the construction of
そのため、追加学習要素決定部183は、類似度情報から学習要素データを決定する。以下に例示する方法は、位置分布マップの類似度情報が閾値より高い場合の、類似度の計算に使用された学習シーンデータに基づく学習要素データの決定方法である。
・類似度情報の計算に使用された(該当の)グループの学習画像データをユーザに提示し、ユーザが類似した画像を手動収集したものに決定する方法
・該当のグループの学習画像データに対応する学習シーンデータの位置分布マップを参考に、画像内の人物領域を他のグループの学習画像内の人物領域に置き換え自動で学習画像を作成する方法
Therefore, the additional learning element determination unit 183 determines the learning element data from the similarity information. The method illustrated below is a method for determining learning element data based on the learning scene data used for calculating the similarity when the similarity information of the position distribution map is higher than the threshold value.
-A method of presenting the learning image data of the (corresponding) group used for calculating the similarity information to the user and determining that the user manually collected similar images-Corresponding to the learning image data of the corresponding group A method of automatically creating a learning image by replacing the person area in the image with the person area in the learning image of another group by referring to the position distribution map of the learning scene data.
一方、以下に例示する方法は、位置分布マップの類似度情報が閾値以下の場合の、類似度の計算に使用された実シーンデータに基づく学習要素データの決定方法である。
・実シーンデータの位置分布マップや検知枠の情報をユーザに明示し、ユーザが類似した画像を手動収集する方法
・画像に対して辞書データ12Dによる物体検出の位置分布マップを生成し、実シーンデータの位置分布マップと類似度が高い画像を探索した後、類似度が高い画像があればその画像に対してアノテーションを実施するようユーザに明示する方法
On the other hand, the method illustrated below is a method for determining learning element data based on the actual scene data used for calculating the similarity when the similarity information of the position distribution map is equal to or less than the threshold value.
-A method in which the position distribution map of the actual scene data and the information of the detection frame are clearly shown to the user, and the user manually collects similar images.-The position distribution map of the object detection by the
また、辞書生成部12において異なる学習画像データ3から辞書データ12Dを複数生成している場合は、実シーンの位置分布マップと最も類似度が高い学習画像データ3を探索し、該当の学習画像データ3に対応する辞書データ12Dを使用するようユーザに明示する方法などもある。
さらに、実シーンの位置分布マップと最も類似度が高い学習画像データ3はあるものの、類似度が閾値より低い場合は、該当の辞書データ12Dと必要な学習画像をユーザに提示する方法を採用してもよい。
また、追加学習要素決定部183は、異種の物体の位置分布マップ、物体検出部15が検出に失敗した対象の位置分布マップ、および、物体検出部15が誤って検出した対象の位置分布マップのいずれかを用いて、学習要素データを決定してもよい。
When a plurality of dictionary data 12Ds are generated from different learning image data 3 in the
Further, although there is the learning image data 3 having the highest degree of similarity to the position distribution map of the actual scene, if the degree of similarity is lower than the threshold value, a method of presenting the
Further, the additional learning element determination unit 183 includes a position distribution map of different objects, a position distribution map of the object that the
図13は、学習シーン解析部134の処理を示すフローチャートである。以下に示すように、学習シーン解析部134は、アノテーションデータ解析部131、映像解析部132、カメラパラメータ取得部133からの出力情報を用いて、学習シーンデータを解析する。
以下、図13のフローチャートにおけるカウンタ変数として、学習画像データ3の集合を構成する学習画像データごとの変数nと、グルーピングの結果として生成されるグループごとの変数mとを用いる。
FIG. 13 is a flowchart showing the processing of the learning
Hereinafter, as the counter variables in the flowchart of FIG. 13, the variable n for each training image data constituting the set of the training image data 3 and the variable m for each group generated as a result of grouping are used.
まず初期化処理として、学習シーン解析部134は、学習画像データ3の集合から1枚の学習画像データ(n=1)を抽出し、その抽出したn=1を含む新規グループ(m=1)を作成する(S101)。グループ(m=1)には、学習画像データ(n=1)に加えて、その学習シーンデータ(位置分布マップなどの情報)も対応づけられている。
First, as an initialization process, the learning
以下、S102〜S121で示す外側のループでは、学習画像データ(n=2,…,N)を順に選択し、選択した学習画像データに対応する学習シーンデータ(位置分布マップ、撮影環境情報、カメラパラメータ)を取得してから(S103)、学習シーン解析部134は内側のループを実行する。
S111〜S117で示す内側のループでは、学習シーン解析部134は、すでに作成したグループ(m=1,…,M)を順に選択する。
学習シーン解析部134は、選択したグループm内の位置分布マップの差分総和を算出し(S112)、その差分総和が閾値未満か否かを判定する(S113)。S113でYesならS114に進み、NoならS102に戻る。
Hereinafter, in the outer loop shown in S102 to S121, the learning image data (n = 2, ..., N) are selected in order, and the learning scene data (position distribution map, shooting environment information, camera) corresponding to the selected learning image data is selected. After acquiring the parameter) (S103), the learning
In the inner loop shown in S111 to S117, the learning
The learning
学習シーン解析部134は、全てのグループ(m=1,…,M)の探索を完了したなら(S114,Yes)、現在選択中の学習画像データnは既存のグループmのどこにも該当しないので、新規グループ(m=M+1)を作成し、その新規グループに現在選択中の学習画像データnを割り当てる(S115)。まだ未探索のグループが存在するなら(S114,No)、既存のグループmに現在選択中の学習画像データnを割り当てる(S116)。
以上、S102〜S121で示す外側のループを実行することで、学習画像データ3の各学習画像データを、学習シーンデータのグループに割り当てる。
If the learning
As described above, by executing the outer loop shown in S102 to S121, each learning image data of the learning image data 3 is assigned to the group of the learning scene data.
学習シーン解析部134は、作成された学習シーンの各グループ(m=1,…,M)において、撮影環境情報とカメラパラメータとによりグループ内の学習画像をさらに分類してもよい(S122)。この分類方法としては、特に限定せず、屋内と屋外に分類する方法や撮影時間帯の情報から分類する方法などがある。カメラパラメータを分類に使用する場合は、例えば、カメラ俯角の情報から、0〜10度、10〜45度、45〜80度、80〜90度などの4つに分類するなどの方法があり、特に限定しない。
また、学習シーン解析部134において、学習シーンのグループ数を学習シーンを分類する際に予め最大グループ数を決めておいてもよく、K−means法により全学習画像間の位置分布マップの差分情報から学習画像をクラスタリングする方法などを用いてもよく、特に限定しない。
In each group (m = 1, ..., M) of the created learning scene, the learning
Further, in the learning
以上説明した実施例1により、計測範囲内の物体を検出するような物体検出装置1において、シーン類似度算出部17が実シーンデータと学習シーンデータとの間の類似度を算出することで、実画像データ内の物体を高精度に認識する辞書データ12Dを生成するための学習要素データを出力できる。
なお、実施例1では、位置分布マップを使用して学習シーンと実シーンとの間の検出対象の位置情報を比較したが、画像中の検出対象間の位置関係を比較可能な方法であれば、特に限定しない。
According to the first embodiment described above, in the
In the first embodiment, the position information of the detection target between the learning scene and the actual scene is compared using the position distribution map, but any method can compare the positional relationship between the detection targets in the image. , Not particularly limited.
また、実施例1では、検出対象を人物に限定した場合について述べたが、検出対象はこれに限らず、検出対象を複数のクラスとして各クラス間の位置分布マップを比較することで追加学習要素を決定してもよく、また、クラス間の位置分布マップを結合し各クラス間の重なり度合などを算出することで、シーンデータの詳細な分析が可能となり実シーンとの類似度が高い画像の探索を効率的に実施するなどの方法を採用してもよい。 Further, in the first embodiment, the case where the detection target is limited to a person has been described, but the detection target is not limited to this, and additional learning elements are obtained by comparing the position distribution maps between each class with the detection target as a plurality of classes. Also, by combining the position distribution maps between the classes and calculating the degree of overlap between the classes, detailed analysis of the scene data becomes possible and the image with a high degree of similarity to the actual scene. A method such as efficiently performing the search may be adopted.
さらに、実施例1において、学習シーンと実シーン間を比較する際に、検出対象のみの位置分布マップを使用したが、検出対象以外の位置分布マップを作成し、シーン間の比較に活用してもよい。例えば、本来は人物のみ検出対象である場合においても、人物周囲にある家具や障害物などの位置分布マップを作成し学習シーンと比較することで、学習シーンと実シーン間のより詳細な比較を実施してもよい。
また、実施例1において、位置分布マップを作成する際に全検知枠や検知枠の情報を使用したが、情報を削減する処理を追加してもよい。例えば、学習シーンを分類する際にグループ数が肥大化しないよう、一定のサイズ以下の検知枠は無視するなどの処理を加えてもよい。
Further, in the first embodiment, when comparing the learning scene and the actual scene, the position distribution map of only the detection target was used, but the position distribution map other than the detection target was created and used for the comparison between the scenes. May be good. For example, even when only a person is originally detected, a more detailed comparison between the learning scene and the actual scene can be made by creating a position distribution map of furniture, obstacles, etc. around the person and comparing it with the learning scene. It may be carried out.
Further, in the first embodiment, the information of all the detection frames and the detection frames is used when creating the position distribution map, but a process for reducing the information may be added. For example, when classifying the learning scenes, processing such as ignoring the detection frame of a certain size or less may be added so that the number of groups does not become large.
図14は、実施例2の物体検出装置10の構成図である。
物体検出装置10と図1の物体検出装置1とを比較すると、物体検出装置10は、物体検出装置1から追加学習要素出力部18を削除し、テストデータ生成部19Aと、辞書データ再構成部19Bとを追加している。
FIG. 14 is a configuration diagram of the
Comparing the
テストデータ生成部19Aは、カメラ情報取得部14から出力されたカメラ2の実画像データの集合をもとに、テストデータを生成する。テストデータは、各実画像データに加え、辞書データ12Dの検出精度を検証するための実シーンデータ(以下、「テストシーンデータ」)がアノテーション部11により付与されている。実画像データの集合の選定方法としては、位置分布マップの分散が大きくなるように選定する方法など、特に限定しない。
The test
辞書データ再構成部19Bは、シーン類似度算出部17が算出するテストシーンデータと学習シーンデータとの類似度と、辞書適応度取得部181が算出するテストデータにおける辞書データ12Dの物体検出精度とから、辞書データ12Dの再構成(修正)の内容を決定する。
辞書データ12Dの再構成処理として、辞書データ12Dに使用するグループ(図13のm=1,…,M)を入れ替えるといった修正内容を提示し、辞書データ12Dを再構成するという方法がある。そのため、辞書データ再構成部19Bは、学習シーンの種類について、位置分布マップによって複数の学習シーンのグループが存在し、かつ、生成した辞書データ12Dが全てのグループを使用して生成したもので無い場合に、実シーンデータと類似度の高い(つまり検出精度が向上すると予測される)グループを探索する。
The dictionary
As a method of reconstructing the
辞書データ12Dの学習シーンデータ(タグデータ)の修正処理として、辞書データ再構成部19Bは、一部の検出対象にのみアノテーション部11からアノテーションすることで工数を削減できる。そのため、辞書データ再構成部19Bは、例えば顧客要件や目視確認の容易さなどからアノテーションする学習シーンデータを決定する。
このように、辞書データ再構成部19Bは、辞書データ12Dの構成を入れ替えたり、辞書データ12Dの学習シーンデータを修正したりして、実シーンデータと類似度の高いグループが探索できるように、辞書データ12Dを繰り返し更新する。これにより、アノテーション作業工数を抑えつつ効率的に検出精度の高い辞書データ12Dを構築できる。
As a correction process of the learning scene data (tag data) of the
In this way, the dictionary
以上説明した実施例2により、辞書データ12Dの物体検出精度が高くなるような学習シーンの修正方法をユーザに提示することで、アノテーション作業を可能な限り抑えつつ効率的に検出精度の高い辞書データ12Dを構築できる。
なお、実施例2において、テストデータにおける辞書データ12Dの検出精度を求める際に、未検出であった検出対象の位置分布マップを生成し、辞書データ再構成部19Bによって未検出の位置分布マップと類似度が高い位置分布マップを持つ学習シーンのグループに対して、アノテーションを追加するようユーザに提示する方法を採用してもよく、本手法により効率的に高精度な辞書データ12Dを生成できる。
According to the second embodiment described above, by presenting to the user a method of modifying the learning scene so that the object detection accuracy of the
In Example 2, when determining the detection accuracy of the
また、テストデータにおいて誤検出が生じた検出対象クラスの位置分布マップを生成し、辞書データ再構成部19Bによって、誤検出の位置分布マップと類似度が高い位置分布マップを持つ学習シーンのグループと、現在のグループを入れ替えるといった修正内容を提示してもよい。
さらに、実施例2において、タグデータを修正する際に最新の辞書データ12Dによる検出結果を活用してもよい。例えば、該当の学習画像に対して最新の辞書データ12Dにより物体を検出し検知枠がついた学習画像をGUI画面などに出力することで、ユーザがアノテーション作業をする際の補助情報として使用するなどの方法がある。
In addition, a position distribution map of the detection target class in which the false detection occurred in the test data is generated, and the dictionary
Further, in the second embodiment, the detection result by the
また、実施例2において、学習画像データ3内にある学習画像に対してタグデータを付与するのではなく、一部の学習画像にのみアノテーションを実施し、辞書データ再構成部19Bにより徐々に学習画像を増やしていくという構成を採用してもよい。具体的には、アノテーションを付与していない学習画像に最新の辞書データ12Dにより物体検出を実施し位置分布マップを作成した後、実シーンの位置分布マップに近い学習画像を追加するようユーザに提示する方法などがある。本手法を繰り返し実施することで、アノテーション作業を実施する学習画像の枚数を抑えつつ、効率的に高精度な辞書データ12Dを生成できる。
Further, in the second embodiment, instead of adding tag data to the learning image in the learning image data 3, only a part of the learning images is annotated, and the dictionary
さらに、実施例2において、顧客要件に応じて効率的な辞書データ12Dを生成できるような構成としてもよい。例えば、目標精度や最終的な辞書データ12Dが必要な期限などの情報に基づき、学習画像データ3の枚数を最小限にしつつ実施例2に示す辞書データ12Dの再構成処理の繰り返し回数を増やす。これにより、辞書データ再構成部19Bが辞書データ12Dの生成に使用する学習シーンのグループの組み合わせを変更することで、目標精度を達成する辞書データ12Dを効率的に構築できる。
Further, in the second embodiment, the configuration may be such that
なお、本発明は前記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、前記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。
また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。
また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。また、上記の各構成、機能、処理部、処理手段などは、それらの一部または全部を、例えば集積回路で設計するなどによりハードウェアで実現してもよい。
また、前記の各構成、機能などは、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。
The present invention is not limited to the above-described embodiment, and includes various modifications. For example, the above-described embodiment has been described in detail in order to explain the present invention in an easy-to-understand manner, and is not necessarily limited to those having all the described configurations.
Further, it is possible to replace a part of the configuration of one embodiment with the configuration of another embodiment, and it is also possible to add the configuration of another embodiment to the configuration of one embodiment.
Further, it is possible to add / delete / replace a part of the configuration of each embodiment with another configuration. Further, each of the above configurations, functions, processing units, processing means and the like may be realized by hardware by designing a part or all of them by, for example, an integrated circuit.
Further, each of the above configurations, functions, and the like may be realized by software by the processor interpreting and executing a program that realizes each function.
各機能を実現するプログラム、テーブル、ファイルなどの情報は、メモリや、ハードディスク、SSD(Solid State Drive)などの記録装置、または、IC(Integrated Circuit)カード、SDカード、DVD(Digital Versatile Disc)などの記録媒体におくことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。
さらに、各装置を繋ぐ通信手段は、無線LANに限定せず、有線LANやその他の通信手段に変更してもよい。
Information such as programs, tables, and files that realize each function can be stored in memory, hard disks, recording devices such as SSDs (Solid State Drives), IC (Integrated Circuit) cards, SD cards, DVDs (Digital Versatile Discs), etc. Can be placed on the recording medium of.
In addition, control lines and information lines are shown as necessary for explanation, and not all control lines and information lines are necessarily shown in the product. In practice, it can be considered that almost all configurations are interconnected.
Further, the communication means for connecting each device is not limited to the wireless LAN, and may be changed to a wired LAN or other communication means.
1 物体検出装置
2 カメラ
3 学習画像データ(学習計測データ)
10 物体検出装置
11 アノテーション部
12 辞書生成部
12D 辞書データ(記憶部)
13 学習シーン取得部
14 カメラ情報取得部
15 物体検出部
16 実シーン推定部
17 シーン類似度算出部
18 追加学習要素出力部
19A テストデータ生成部
19B 辞書データ再構成部
131 アノテーションデータ解析部
132 映像解析部
133 カメラパラメータ取得部
134 学習シーン解析部
181 辞書適応度取得部
182 追加学習判定部
183 追加学習要素決定部
1 Object detection device 2 Camera 3 Learning image data (learning measurement data)
10
13 Learning
Claims (10)
物体検出の対象である実計測データから、前記辞書データにより物体を検出する物体検出部と、
前記物体検出部の物体検出結果から前記実計測データにタグ付けする実シーンデータを推定する実シーン推定部と、
推定された前記実シーンデータと、前記辞書データの前記学習シーンデータとの類似度を算出するシーン類似度算出部と、
前記辞書データの追加学習に必要な学習要素データを出力する追加学習要素出力部とを有しており、
前記追加学習要素出力部は、
前記シーン類似度算出部が算出した類似度が所定閾値よりも高い場合、類似度の計算に使用された前記学習シーンデータに基づく前記学習要素データを出力し、
前記シーン類似度算出部が算出した類似度が所定閾値以下の場合、類似度の計算に使用された前記実シーンデータに基づく前記学習要素データを出力することを特徴とする
物体検出装置。 A storage unit of dictionary data having a set of learning measurement data and learning scene data tagged with each learning measurement data.
An object detection unit that detects an object from the actual measurement data that is the target of object detection using the dictionary data,
An actual scene estimation unit that estimates the actual scene data to be tagged with the actual measurement data from the object detection result of the object detection unit, and
A scene similarity calculation unit that calculates the similarity between the estimated actual scene data and the learning scene data of the dictionary data, and
It has an additional learning element output unit that outputs learning element data required for additional learning of the dictionary data.
The additional learning element output unit
When the similarity calculated by the scene similarity calculation unit is higher than a predetermined threshold value, the learning element data based on the learning scene data used for the calculation of the similarity is output.
An object detection device characterized in that when the similarity calculated by the scene similarity calculation unit is equal to or less than a predetermined threshold value, the learning element data based on the actual scene data used for the calculation of the similarity is output.
前記シーン類似度算出部は、前記位置分布マップ間の類似度を算出することを特徴とする
請求項1に記載の物体検出装置。 The learning scene data and the actual scene data each have a position distribution map in the image data extracted from the position information of the detection target in the image data and the detection frame information indicating the size.
The object detection device according to claim 1, wherein the scene similarity calculation unit calculates the similarity between the position distribution maps.
請求項2に記載の物体検出装置。 The additional learning element output unit includes the position distribution map of a different object, the position distribution map of an object that the object detection unit failed to detect, and the position distribution map of an object that the object detection unit erroneously detected. The object detection device according to claim 2, wherein the learning element data is determined by using any of the above.
請求項2に記載の物体検出装置。 The object detection device further groups the set of the learning measurement data similar among the position distribution maps of the learning measurement data with respect to the set of the learning measurement data of the dictionary data, and generates the set by the grouping. The object detection device according to claim 2, further comprising a learning scene acquisition unit that causes the scene similarity calculation unit to calculate the similarity using the learning scene data for each group.
請求項1に記載の物体検出装置。 The claim is characterized in that the additional learning element output unit determines whether or not the dictionary data used by the object detection unit needs to be modified based on fitness, which is the accuracy with which the object detection unit detects an object. Item 2. The object detection device according to item 1.
請求項1に記載の物体検出装置。 The object detection device further determines the content of the reconstruction of the dictionary data used by the object detection unit based on the adaptability which is the accuracy of detecting the object by the object detection unit. The object detection device according to claim 1, wherein the object detection device has.
請求項1に記載の物体検出装置。 The scene similarity calculation unit calculates the similarity between the actual scene data and the learning scene data by using at least one of the shooting time zone information, the shooting location information, and the camera parameters as the scene data. The object detection device according to claim 1, wherein the object detection device is characterized by the above.
請求項1に記載の物体検出装置。 The additional learning element output unit is at least one of image type information indicating the type of the learning measurement data required for additional learning, learning method information of the learning scene data, and dictionary type information related to the construction of the dictionary data. The object detection device according to claim 1, wherein one is output as the learning element data.
前記計測装置は、モノラルカメラ、ステレオカメラ、および、距離センサのいずれかであり、
前記物体検出装置は、
学習計測データの集合と、前記各学習計測データに対してタグ付けされた学習シーンデータとを有する辞書データの記憶部と、
物体検出の対象として前記計測装置により計測された実計測データから、前記辞書データにより物体を検出する物体検出部と、
前記物体検出部の物体検出結果から前記実計測データにタグ付けする実シーンデータを推定する実シーン推定部と、
推定された前記実シーンデータと、前記辞書データの前記学習シーンデータとの類似度を算出するシーン類似度算出部と、
前記辞書データの追加学習に必要な学習要素データを出力する追加学習要素出力部とを有しており、
前記追加学習要素出力部は、
前記シーン類似度算出部が算出した類似度が所定閾値よりも高い場合、類似度の計算に使用された前記学習シーンデータに基づく前記学習要素データを出力し、
前記シーン類似度算出部が算出した類似度が所定閾値以下の場合、類似度の計算に使用された前記実シーンデータに基づく前記学習要素データを出力することを特徴とする
物体検出システム。 An object detection system having an object detection device and a measuring device.
The measuring device is either a monaural camera, a stereo camera, or a distance sensor.
The object detection device is
A storage unit of dictionary data having a set of learning measurement data and learning scene data tagged with each learning measurement data.
An object detection unit that detects an object from the actual measurement data measured by the measuring device as an object detection target by the dictionary data, and an object detection unit.
An actual scene estimation unit that estimates the actual scene data to be tagged with the actual measurement data from the object detection result of the object detection unit, and
A scene similarity calculation unit that calculates the similarity between the estimated actual scene data and the learning scene data of the dictionary data, and
It has an additional learning element output unit that outputs learning element data required for additional learning of the dictionary data.
The additional learning element output unit
When the similarity calculated by the scene similarity calculation unit is higher than a predetermined threshold value, the learning element data based on the learning scene data used for the calculation of the similarity is output.
An object detection system characterized in that when the similarity calculated by the scene similarity calculation unit is equal to or less than a predetermined threshold value, the learning element data based on the actual scene data used for the calculation of the similarity is output.
前記物体検出部は、物体検出の対象である実計測データから、前記辞書データにより物体を検出し、
前記実シーン推定部は、前記物体検出部の物体検出結果から前記実計測データにタグ付けする実シーンデータを推定し、
前記シーン類似度算出部は、推定された前記実シーンデータと、前記辞書データの前記学習シーンデータとの類似度を算出し、
前記追加学習要素出力部は、前記辞書データの追加学習に必要な学習要素データを出力するときに、
前記シーン類似度算出部が算出した類似度が所定閾値よりも高い場合、類似度の計算に使用された前記学習シーンデータに基づく前記学習要素データを出力し、
前記シーン類似度算出部が算出した類似度が所定閾値以下の場合、類似度の計算に使用された前記実シーンデータに基づく前記学習要素データを出力することを特徴とする
物体検出方法。 A storage unit of dictionary data having a set of learning measurement data and learning scene data tagged with each learning measurement data, an object detection unit, an actual scene estimation unit, a scene similarity calculation unit, and the like. An object detection method executed by an object detection device having an additional learning element output unit.
The object detection unit detects an object from the actual measurement data, which is the object of the object detection, by the dictionary data.
The actual scene estimation unit estimates the actual scene data to be tagged with the actual measurement data from the object detection result of the object detection unit.
The scene similarity calculation unit calculates the similarity between the estimated actual scene data and the learning scene data of the dictionary data.
When the additional learning element output unit outputs the learning element data necessary for the additional learning of the dictionary data,
When the similarity calculated by the scene similarity calculation unit is higher than a predetermined threshold value, the learning element data based on the learning scene data used for the calculation of the similarity is output.
An object detection method characterized in that when the similarity calculated by the scene similarity calculation unit is equal to or less than a predetermined threshold value, the learning element data based on the actual scene data used for the calculation of the similarity is output.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020026738A JP7358269B2 (en) | 2020-02-20 | 2020-02-20 | Object detection device, object detection system, and object detection method |
PCT/JP2020/032521 WO2021166290A1 (en) | 2020-02-20 | 2020-08-28 | Object detecting device, object detecting system, and object detecting method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020026738A JP7358269B2 (en) | 2020-02-20 | 2020-02-20 | Object detection device, object detection system, and object detection method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021131734A true JP2021131734A (en) | 2021-09-09 |
JP7358269B2 JP7358269B2 (en) | 2023-10-10 |
Family
ID=77390563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020026738A Active JP7358269B2 (en) | 2020-02-20 | 2020-02-20 | Object detection device, object detection system, and object detection method |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7358269B2 (en) |
WO (1) | WO2021166290A1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2024161535A1 (en) * | 2023-02-01 | 2024-08-08 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090316988A1 (en) * | 2008-06-18 | 2009-12-24 | Samsung Electronics Co., Ltd. | System and method for class-specific object segmentation of image data |
JP2016015045A (en) * | 2014-07-02 | 2016-01-28 | キヤノン株式会社 | Image recognition device, image recognition method, and program |
JP2019087229A (en) * | 2017-11-02 | 2019-06-06 | キヤノン株式会社 | INFORMATION PROCESSING APPARATUS, CONTROL METHOD FOR INFORMATION PROCESSING APPARATUS, AND PROGRAM |
-
2020
- 2020-02-20 JP JP2020026738A patent/JP7358269B2/en active Active
- 2020-08-28 WO PCT/JP2020/032521 patent/WO2021166290A1/en active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090316988A1 (en) * | 2008-06-18 | 2009-12-24 | Samsung Electronics Co., Ltd. | System and method for class-specific object segmentation of image data |
JP2016015045A (en) * | 2014-07-02 | 2016-01-28 | キヤノン株式会社 | Image recognition device, image recognition method, and program |
JP2019087229A (en) * | 2017-11-02 | 2019-06-06 | キヤノン株式会社 | INFORMATION PROCESSING APPARATUS, CONTROL METHOD FOR INFORMATION PROCESSING APPARATUS, AND PROGRAM |
Also Published As
Publication number | Publication date |
---|---|
WO2021166290A1 (en) | 2021-08-26 |
JP7358269B2 (en) | 2023-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Overview and methods of correlation filter algorithms in object tracking | |
KR102261061B1 (en) | Systems and methods for detecting a point of interest change using a convolutional neural network | |
US11823128B2 (en) | Large-scale automated image annotation system | |
US10140575B2 (en) | Sports formation retrieval | |
JP6397144B2 (en) | Business discovery from images | |
CN103703472B (en) | Method and system for determining the location and related attributes of an object in a video | |
CN115527083B (en) | Image annotation method and device and electronic equipment | |
JP2020204800A (en) | Learning dataset generation system, learning server, and learning dataset generation program | |
de Almeida et al. | Detection of global and local motion changes in human crowds | |
CN118094118B (en) | Data set quality evaluation method, system, electronic equipment and storage medium | |
CN111124863B (en) | Intelligent device performance testing method and device and intelligent device | |
CN113705293A (en) | Image scene recognition method, device, equipment and readable storage medium | |
CN112541403A (en) | Indoor personnel falling detection method utilizing infrared camera | |
Abdulghani et al. | Discover human poses similarity and action recognition based on machine learning | |
Bühler et al. | Automated hand-raising detection in classroom videos: A view-invariant and occlusion-robust machine learning approach | |
WO2021166290A1 (en) | Object detecting device, object detecting system, and object detecting method | |
JP7540500B2 (en) | GROUP IDENTIFICATION DEVICE, GROUP IDENTIFICATION METHOD, AND PROGRAM | |
Zhu et al. | A vision-based fall detection framework for the elderly in a room environment using motion features and DAG-SVM | |
JP2012027617A (en) | Pattern identification device, pattern identification method and program | |
KR20200124887A (en) | Method and Apparatus for Creating Labeling Model with Data Programming | |
JPWO2022079841A5 (en) | Group identification device, group identification method, and program | |
Liu et al. | Post-integration based point-line feature visual SLAM in low-texture environments | |
Orrite et al. | Image-based location recognition and scenario modelling | |
US11657649B2 (en) | Classification of subjects within a digital image | |
JP2023088294A (en) | Systems, methods, and computer programs for retraining pretrained object classifiers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230119 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230905 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230927 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7358269 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |