JP7165731B2 - 目標検出方法及び装置、トレーニング方法、電子機器並びに媒体 - Google Patents
目標検出方法及び装置、トレーニング方法、電子機器並びに媒体 Download PDFInfo
- Publication number
- JP7165731B2 JP7165731B2 JP2020526040A JP2020526040A JP7165731B2 JP 7165731 B2 JP7165731 B2 JP 7165731B2 JP 2020526040 A JP2020526040 A JP 2020526040A JP 2020526040 A JP2020526040 A JP 2020526040A JP 7165731 B2 JP7165731 B2 JP 7165731B2
- Authority
- JP
- Japan
- Prior art keywords
- frame
- features
- detection
- regression
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Image Analysis (AREA)
Description
<関連出願の相互参照>
本願は、2017年11月12日に中国特許局に提出された、出願番号CN201711110587.1、発明の名称「目標検出方法及び装置、トレーニング方法、電子機器、プログラム並びに媒体」の中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をニューラルネットワークによりそれぞれ抽出することと、
前記テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得することと、
前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することと、
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することと、を含む目標追跡方法を提供する。
検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をニューラルネットワークによりそれぞれ抽出することと、
第1の畳み込み層によって前記テンプレートフレームの特徴のチャンネルを増加し、取得された第1の特徴を前記局所領域検出器の分類の重みとし、第2の畳み込み層によって前記テンプレートフレームの特徴のチャンネルを増加し、得られた第2の特徴を前記局所領域検出器の回帰の重みとすることと、
前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することと、
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することと、
取得された前記検出フレームにおける前記目標対象物の検出枠を予測検出枠とし、前記検出フレームのラベリング情報と前記予測検出枠に基づいて前記ニューラルネットワーク、前記第1の畳み込み層及び前記第2の畳み込み層をトレーニングすることと、を含む目標検出ネットワークのトレーニング方法を提供する。
検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をそれぞれ抽出するためのニューラルネットワークと、
前記テンプレートフレームの特徴のチャンネルを増加し、得られた第1の特徴を局所領域検出器の分類の重みとするための第1の畳み込み層と、
前記テンプレートフレームの特徴のチャンネルを増加し、得られた第2の特徴を前記局所領域検出器の回帰の重みとするための第2の畳み込み層と、
前記検出フレームの特徴により複数の候補枠の分類結果と回帰結果を出力するための局所領域検出器と、
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得するための取得ユニットと、を含む目標検出装置を提供する。
実行可能コマンドを記憶するためのメモリと、
前記メモリと通信して、前記実行可能コマンドを実行することにより、本開示の実施例のいずれか1つに記載の前記方法の操作を完成するためのプロセッサと、を含む別の電子機器を提供する。
図面を伴う以下の詳細な説明により、本開示をより明瞭に理解することができる。
ここで、テンプレートフレームは目標対象物の検出枠の画像であり、テンプレートフレームの画像の大きさが検出フレームより小さく、検出フレームは、目標対象物の検出を行う現在フレーム又は現在フレームにおける目標対象物の存在可能な領域画像である。検出フレームが目標対象物の検出を行う現在フレームにおける目標対象物の存在可能な領域画像である場合に、本開示の各実施例の一実施形態では、該領域画像の大きさがテンプレートフレームの画像より大きく、例えば、該領域画像はテンプレートフレームの画像の中心点を中心点として、大きさがテンプレートフレーム画像の大きさの2-4倍であってよい。
ここで、分類結果は各候補枠のそれぞれの目標対象物の検出枠である確率値を含み、回帰結果は各候補枠のテンプレートフレームに対応する検出枠からのずれ量を含む。
ニューラルネットワークにより、ビデオシーケンスにおいて時系列的に検出フレームの後に位置する少なくとも1つの他の検出フレームの特徴を抽出することと、
上記少なくとも1つの他の検出フレームの特徴を局所領域検出器に順に入力し、局所領域検出器から出力される上記少なくとも1つの他の検出フレームにおける複数の候補枠及び各候補枠の分類結果と回帰結果を順に取得し、即ち、順に上記少なくとも1つの他の検出フレームの特徴に対して操作106を実行することと、
上記少なくとも1つの他の検出フレームの複数の候補枠の分類結果と回帰結果により、上記少なくとも1つの他の検出フレームにおける目標対象物の検出枠を順に取得し、即ち、順に上記少なくとも1つの他の検出フレームの複数の候補枠の分類結果と回帰結果に対して操作108を実行することと、を更に含んでよい。
ここで、テンプレートフレームは目標対象物の検出枠の画像であり、テンプレートフレームの画像大きさが検出フレームより小さく、検出フレームは、目標対象物の検出を行う現在フレーム又は現在フレームにおける目標対象物の存在可能な領域画像である。テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームである。
ここで、分類結果は各候補枠のそれぞれの目標対象物の検出枠である確率値を含み、回帰結果は各候補枠のテンプレートフレームに対応する検出枠からのずれ量を含む。
ここで、テンプレートフレームは目標対象物の検出枠の画像であり、テンプレートフレームの画像大きさが検出フレームより小さく、検出フレームは、目標対象物の検出を行う現在フレーム又は現在フレームにおける目標対象物の存在可能な領域画像である。テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームである。
ここで、分類結果は各候補枠のそれぞれの目標対象物の検出枠である確率値を含み、回帰結果は各候補枠のテンプレートフレームに対応する検出枠からのずれ量を含む。
少なくとも1つの他の検出フレームの特徴を局所領域検出器に順に入力し、局所領域検出器から出力される少なくとも1つの他の検出フレームにおける複数の候補枠及び各候補枠の分類結果と回帰結果を順に取得し、即ち、順に少なくとも1つの他の検出フレームの特徴に対して操作306を実行することと、
少なくとも1つの他の検出フレームの複数の候補枠の分類結果と回帰結果により、少なくとも1つの他の検出フレームにおける目標対象物の検出枠を順に取得し、即ち、順に少なくとも1つの他の検出フレームの複数の候補枠の分類結果と回帰結果に対して操作308を実行することと、を更に含んでよい。
ここで、テンプレートフレームは目標対象物の検出枠の画像であり、テンプレートフレームの画像大きさが検出フレームより小さく、検出フレームは、目標対象物の検出を行う現在フレーム又は現在フレームにおける目標対象物の存在可能な領域画像である。テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームである。
ここで、分類結果は各候補枠のそれぞれの目標対象物の検出枠である確率値を含み、回帰結果は各候補枠のテンプレートフレームに対応する検出枠からのずれ量を含む。
Claims (19)
- 検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をニューラルネットワークによりそれぞれ抽出することと、
前記テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得することと、
前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することと、
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することと、を含むことを特徴とする目標検出方法。 - 前記ニューラルネットワークにより、ビデオシーケンスにおいて時系列的に前記検出フレームの後に位置する少なくとも1つの他の検出フレームの特徴を抽出することと、
前記少なくとも1つの他の検出フレームの特徴を前記局所領域検出器に順に入力し、前記局所領域検出器から出力される前記少なくとも1つの他の検出フレームにおける複数の候補枠及び各候補枠の分類結果と回帰結果を順に取得することと、
前記少なくとも1つの他の検出フレームの複数の候補枠の分類結果と回帰結果により、前記少なくとも1つの他の検出フレームにおける前記目標対象物の検出枠を順に取得することと、を更に含むことを特徴とする請求項1に記載の方法。 - ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出することは、
同一のニューラルネットワークにより前記テンプレートフレームと前記検出フレームの特徴をそれぞれ抽出すること、又は、
同じ構成を有する別々のニューラルネットワークにより前記テンプレートフレームと前記検出フレームの特徴をそれぞれ抽出することを含むことを特徴とする請求項1又は2に記載の方法。 - 前記検出フレームは、前記目標対象物の検出を行う現在フレーム又は現在フレームにおける前記目標対象物の存在可能な領域画像であり、
前記検出フレームが前記目標対象物の検出を行う現在フレームにおける前記目標対象物の存在可能な領域画像である場合に、
前記テンプレートフレームの中心点を中心点とし、現在フレームから長さ及び/又は幅がそれぞれ前記テンプレートフレームの画像の長さ及び/又は幅より大きい領域画像を切り出して前記検出フレームとすることを更に含むことを特徴とする請求項1~3のいずれか一項に記載の方法。 - 前記テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みを取得することは、
第1の畳み込み層によって前記テンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第1の特徴を前記局所領域検出器の分類の重みとすることを含むことを特徴とする請求項1~4のいずれか一項に記載の方法。 - 前記テンプレートフレームの特徴に基づいて局所領域検出器の回帰の重みを取得することは、
第2の畳み込み層によって前記テンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第2の特徴を前記局所領域検出器の回帰の重みとすることを含むことを特徴とする請求項1~5のいずれか一項に記載の方法。 - 前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することは、
前記分類の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することと、前記回帰の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することと、を含むことを特徴とする請求項1~6のいずれか一項に記載の方法。 - 前記検出フレームの特徴を抽出した後に、第3の畳み込み層によって前記検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が前記検出フレームの特徴のチャンネル数と同様な第3の特徴を取得することを更に含み、
前記分類の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することは、前記分類の重みを用いて前記第3の特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することを含むことを特徴とする請求項7に記載の方法。 - 前記テンプレートフレームの特徴を抽出した後に、第4の畳み込み層によって前記検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が前記検出フレームの特徴のチャンネル数と同様な第4の特徴を取得することを更に含み、
前記回帰の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することは、前記回帰の重みを用いて前記第4の特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することを含むことを特徴とする請求項7又は8に記載の方法。 - 前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することは、
前記分類結果と前記回帰結果により前記複数の候補枠から1つの候補枠を選択し、選択された候補枠のずれ量により前記選択された候補枠を回帰させ、前記検出フレームにおける前記目標対象物の検出枠を取得することを含むことを特徴とする請求項1~9のいずれか一項に記載の方法。 - 前記分類結果と前記回帰結果により前記複数の候補枠から1つの候補枠を選択することは、
前記分類結果と前記回帰結果の重み係数により前記複数の候補枠から1つの候補枠を選択することを含み、または、
回帰結果を取得した後に、前記回帰結果により前記分類結果を調整することを更に含み、
前記分類結果と前記回帰結果により前記複数の候補枠から1つの候補枠を選択することは、調整後の分類結果により前記複数の候補枠から1つの候補枠を選択することを含むことを特徴とする請求項10に記載の方法。 - 検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をニューラルネットワークによりそれぞれ抽出することと、
第1の畳み込み層によって前記テンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第1の特徴を局所領域検出器の分類の重みとし、第2の畳み込み層によって前記テンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第2の特徴を前記局所領域検出器の回帰の重みとすることと、
前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することと、
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することと、
取得された前記検出フレームにおける前記目標対象物の検出枠を予測検出枠とし、前記検出フレームのラベリング情報と前記予測検出枠に基づいて前記ニューラルネットワーク、前記第1の畳み込み層及び前記第2の畳み込み層をトレーニングすることと、を含むことを特徴とする目標検出ネットワークのトレーニング方法。 - 前記検出フレームのラベリング情報は、ラベリングされた前記検出フレームでの前記目標対象物の検出枠の位置と大きさを含み、
取得された前記検出フレームにおける前記目標対象物の検出枠を予測検出枠とし、前記検出フレームのラベリング情報と前記予測検出枠に基づいて、前記ニューラルネットワーク、前記第1の畳み込み層及び前記第2の畳み込み層をトレーニングすることは、
前記ラベリングされた検出枠の位置及び大きさと前記予測検出枠の位置及び大きさとの差により、前記ニューラルネットワーク、前記第1の畳み込み層及び前記第2の畳み込み層の重み値を調整することを含むことを特徴とする請求項12に記載の方法。 - 検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をそれぞれ抽出するためのニューラルネットワークと、
前記テンプレートフレームの特徴のチャンネルを増加し、得られた第1の特徴を局所領域検出器の分類の重みとするための第1の畳み込み層と、
前記テンプレートフレームの特徴のチャンネルを増加し、得られた第2の特徴を前記局所領域検出器の回帰の重みとするための第2の畳み込み層と、
前記検出フレームの特徴により複数の候補枠の分類結果と回帰結果を出力するための局所領域検出器と、
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得するための取得ユニットと、を含むことを特徴とする目標検出装置。 - 前記局所領域検出器は、前記分類の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することと、前記回帰の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することとに用いられることを特徴とする請求項14に記載の装置。
- 請求項14又は15に記載の目標検出装置を含むことを特徴とする電子機器。
- 実行可能コマンドを記憶するためのメモリと、
前記メモリと通信して、前記実行可能コマンドを実行することにより請求項1~13のいずれか一項に記載の方法の操作を完成するためのプロセッサと、を含むことを特徴とする電子機器。 - コンピュータ読取可能コマンドを記憶するためのコンピュータ記憶媒体であって、前記コマンドが実行されると、請求項1~13のいずれか一項に記載の方法の操作が実現されることを特徴とするコンピュータ記憶媒体。
- コンピュータ読取可能コマンドを含むコンピュータプログラムであって、前記コマンドが機器上で作動すると、前記機器におけるプロセッサに請求項1~13のいずれか一項に記載の方法の操作が実現させることを特徴とするコンピュータプログラム。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201711110587.1A CN108230359B (zh) | 2017-11-12 | 2017-11-12 | 目标检测方法和装置、训练方法、电子设备、程序和介质 |
| CN201711110587.1 | 2017-11-12 | ||
| PCT/CN2018/114884 WO2019091464A1 (zh) | 2017-11-12 | 2018-11-09 | 目标检测方法和装置、训练方法、电子设备和介质 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2021502645A JP2021502645A (ja) | 2021-01-28 |
| JP7165731B2 true JP7165731B2 (ja) | 2022-11-04 |
Family
ID=62655730
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020526040A Active JP7165731B2 (ja) | 2017-11-12 | 2018-11-09 | 目標検出方法及び装置、トレーニング方法、電子機器並びに媒体 |
Country Status (7)
| Country | Link |
|---|---|
| US (1) | US11455782B2 (ja) |
| JP (1) | JP7165731B2 (ja) |
| KR (1) | KR20200087784A (ja) |
| CN (1) | CN108230359B (ja) |
| PH (1) | PH12020550588A1 (ja) |
| SG (1) | SG11202004324WA (ja) |
| WO (1) | WO2019091464A1 (ja) |
Families Citing this family (43)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN108230359B (zh) * | 2017-11-12 | 2021-01-26 | 北京市商汤科技开发有限公司 | 目标检测方法和装置、训练方法、电子设备、程序和介质 |
| US11430312B2 (en) * | 2018-07-05 | 2022-08-30 | Movidius Limited | Video surveillance with neural networks |
| CN109584276B (zh) * | 2018-12-04 | 2020-09-25 | 北京字节跳动网络技术有限公司 | 关键点检测方法、装置、设备及可读介质 |
| CN109726683B (zh) * | 2018-12-29 | 2021-06-22 | 北京市商汤科技开发有限公司 | 目标对象检测方法和装置、电子设备和存储介质 |
| CN111435432B (zh) * | 2019-01-15 | 2023-05-26 | 北京市商汤科技开发有限公司 | 网络优化方法及装置、图像处理方法及装置、存储介质 |
| CN110136107B (zh) * | 2019-05-07 | 2023-09-05 | 上海交通大学 | 基于dssd和时域约束x光冠脉造影序列自动分析方法 |
| CN110399900A (zh) * | 2019-06-26 | 2019-11-01 | 腾讯科技(深圳)有限公司 | 对象检测方法、装置、设备及介质 |
| CN110533184B (zh) * | 2019-08-31 | 2023-01-06 | 南京人工智能高等研究院有限公司 | 一种网络模型的训练方法及装置 |
| CN110598785B (zh) * | 2019-09-11 | 2021-09-07 | 腾讯科技(深圳)有限公司 | 一种训练样本图像的生成方法及装置 |
| CN110647938B (zh) * | 2019-09-24 | 2022-07-15 | 北京市商汤科技开发有限公司 | 图像处理方法及相关装置 |
| US11429809B2 (en) | 2019-09-24 | 2022-08-30 | Beijing Sensetime Technology Development Co., Ltd | Image processing method, image processing device, and storage medium |
| CN111860090B (zh) * | 2019-11-06 | 2024-11-19 | 北京嘀嘀无限科技发展有限公司 | 一种车辆验证方法及装置 |
| CN110866509B (zh) | 2019-11-20 | 2023-04-28 | 腾讯科技(深圳)有限公司 | 动作识别方法、装置、计算机存储介质和计算机设备 |
| US11080833B2 (en) * | 2019-11-22 | 2021-08-03 | Adobe Inc. | Image manipulation using deep learning techniques in a patch matching operation |
| CN110942065B (zh) * | 2019-11-26 | 2023-12-12 | Oppo广东移动通信有限公司 | 文本框选方法、装置、终端设备及计算机可读存储介质 |
| KR102311798B1 (ko) * | 2019-12-12 | 2021-10-08 | 포항공과대학교 산학협력단 | 다중 객체 추적 방법 및 장치 |
| JP7490359B2 (ja) * | 2019-12-24 | 2024-05-27 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
| CN111383244B (zh) * | 2020-02-28 | 2023-09-01 | 浙江大华技术股份有限公司 | 一种目标检测跟踪方法 |
| CN111815677B (zh) * | 2020-07-10 | 2024-11-26 | 广州新华学院 | 目标追踪方法、装置、终端设备和可读存储介质 |
| CN111915593B (zh) * | 2020-08-04 | 2025-04-25 | 中国科学院微电子研究所 | 模型建立方法、装置、电子设备及存储介质 |
| CN111898701B (zh) * | 2020-08-13 | 2023-07-25 | 网易(杭州)网络有限公司 | 模型训练、帧图像生成、插帧方法、装置、设备及介质 |
| CN112215899B (zh) * | 2020-09-18 | 2024-01-30 | 深圳市瑞立视多媒体科技有限公司 | 帧数据在线处理方法、装置和计算机设备 |
| CN112381136B (zh) * | 2020-11-12 | 2022-08-19 | 深兰智能科技(上海)有限公司 | 目标检测方法和装置 |
| CN112465691A (zh) * | 2020-11-25 | 2021-03-09 | 北京旷视科技有限公司 | 图像处理方法、装置、电子设备和计算机可读介质 |
| CN112464797B (zh) * | 2020-11-25 | 2024-04-02 | 创新奇智(成都)科技有限公司 | 一种吸烟行为检测方法、装置、存储介质及电子设备 |
| CN112465868B (zh) * | 2020-11-30 | 2024-01-12 | 浙江华锐捷技术有限公司 | 一种目标检测跟踪方法、装置、存储介质及电子装置 |
| CN112580474B (zh) * | 2020-12-09 | 2021-09-24 | 云从科技集团股份有限公司 | 基于计算机视觉的目标对象检测方法、系统、设备及介质 |
| CN112528932B (zh) * | 2020-12-22 | 2023-12-08 | 阿波罗智联(北京)科技有限公司 | 用于优化位置信息的方法、装置、路侧设备和云控平台 |
| US12406023B1 (en) * | 2021-01-04 | 2025-09-02 | Nvidia Corporation | Neural network training method |
| CN112906478B (zh) * | 2021-01-22 | 2024-01-09 | 北京百度网讯科技有限公司 | 目标对象的识别方法、装置、设备和存储介质 |
| CN113128564B (zh) * | 2021-03-23 | 2022-03-22 | 武汉泰沃滋信息技术有限公司 | 一种基于深度学习的复杂背景下典型目标检测方法及系统 |
| CN113221962B (zh) * | 2021-04-21 | 2022-06-21 | 哈尔滨工程大学 | 一种解耦分类与回归任务的三维点云单阶段目标检测方法 |
| CN113076923A (zh) * | 2021-04-21 | 2021-07-06 | 山东大学 | 基于轻量型网络MobileNet-SSD的口罩佩戴检测方法、设备及存储介质 |
| CN113160247B (zh) * | 2021-04-22 | 2022-07-05 | 福州大学 | 基于频率分离的抗噪孪生网络目标跟踪方法 |
| CN113327253B (zh) * | 2021-05-24 | 2024-05-24 | 北京市遥感信息研究所 | 一种基于星载红外遥感影像的弱小目标检测方法 |
| KR102637343B1 (ko) * | 2021-05-26 | 2024-02-16 | 삼성전자주식회사 | 오브젝트 추적 방법 및 장치 |
| CN113065618A (zh) * | 2021-06-03 | 2021-07-02 | 常州微亿智造科技有限公司 | 工业质检中的检测方法、检测装置 |
| CN113591567A (zh) * | 2021-06-28 | 2021-11-02 | 北京百度网讯科技有限公司 | 目标检测方法、目标检测模型的训练方法及其装置 |
| CN113888740B (zh) * | 2021-08-23 | 2025-07-15 | 深圳市捷顺科技实业股份有限公司 | 一种确定目标车牌框和目标车辆框绑定关系的方法及装置 |
| CN114091518A (zh) * | 2021-10-21 | 2022-02-25 | 安徽深核信息技术有限公司 | 一种使用组合特征的多阶段微弱目标图像检测方法 |
| US12340547B2 (en) | 2021-12-28 | 2025-06-24 | Samsung Electronics Co., Ltd. | Electronic device and method for detecting target objects |
| CN115527019A (zh) * | 2022-10-20 | 2022-12-27 | 九识智行(北京)科技有限公司 | 基于辅助框回归的旋转目标检测方法、装置和存储介质 |
| CN116152294B (zh) * | 2023-02-28 | 2025-08-29 | 南京邮电大学 | 基于transformer的特征关联多目标追踪方法 |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2018026108A (ja) | 2016-08-08 | 2018-02-15 | パナソニックIpマネジメント株式会社 | 物体追跡方法、物体追跡装置およびプログラム |
Family Cites Families (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6192360B1 (en) * | 1998-06-23 | 2001-02-20 | Microsoft Corporation | Methods and apparatus for classifying text and for building a text classifier |
| WO2005098739A1 (en) * | 2004-04-08 | 2005-10-20 | Mobileye Technologies Limited | Pedestrian detection |
| CN104424634B (zh) * | 2013-08-23 | 2017-05-03 | 株式会社理光 | 对象跟踪方法和装置 |
| CN105900116A (zh) * | 2014-02-10 | 2016-08-24 | 三菱电机株式会社 | 分层型神经网络装置、判别器学习方法以及判别方法 |
| CN106355188B (zh) * | 2015-07-13 | 2020-01-21 | 阿里巴巴集团控股有限公司 | 图像检测方法及装置 |
| CN105740910A (zh) * | 2016-02-02 | 2016-07-06 | 北京格灵深瞳信息技术有限公司 | 一种车辆物件检测方法及装置 |
| US11144761B2 (en) * | 2016-04-04 | 2021-10-12 | Xerox Corporation | Deep data association for online multi-class multi-object tracking |
| CN105976400B (zh) * | 2016-05-10 | 2017-06-30 | 北京旷视科技有限公司 | 基于神经网络模型的目标跟踪方法及装置 |
| CN106326837B (zh) * | 2016-08-09 | 2019-09-17 | 北京旷视科技有限公司 | 对象追踪方法和装置 |
| CN106650630B (zh) * | 2016-11-11 | 2019-08-23 | 纳恩博(北京)科技有限公司 | 一种目标跟踪方法及电子设备 |
| CN106709936A (zh) * | 2016-12-14 | 2017-05-24 | 北京工业大学 | 一种基于卷积神经网络的单目标跟踪方法 |
| CN107066990B (zh) * | 2017-05-04 | 2019-10-11 | 厦门美图之家科技有限公司 | 一种目标跟踪方法及移动设备 |
| CN108230359B (zh) * | 2017-11-12 | 2021-01-26 | 北京市商汤科技开发有限公司 | 目标检测方法和装置、训练方法、电子设备、程序和介质 |
| CN109726683B (zh) * | 2018-12-29 | 2021-06-22 | 北京市商汤科技开发有限公司 | 目标对象检测方法和装置、电子设备和存储介质 |
-
2017
- 2017-11-12 CN CN201711110587.1A patent/CN108230359B/zh active Active
-
2018
- 2018-11-09 KR KR1020207016026A patent/KR20200087784A/ko not_active Withdrawn
- 2018-11-09 JP JP2020526040A patent/JP7165731B2/ja active Active
- 2018-11-09 WO PCT/CN2018/114884 patent/WO2019091464A1/zh not_active Ceased
- 2018-11-09 SG SG11202004324WA patent/SG11202004324WA/en unknown
-
2020
- 2020-05-06 US US16/868,427 patent/US11455782B2/en active Active
- 2020-05-07 PH PH12020550588A patent/PH12020550588A1/en unknown
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2018026108A (ja) | 2016-08-08 | 2018-02-15 | パナソニックIpマネジメント株式会社 | 物体追跡方法、物体追跡装置およびプログラム |
Non-Patent Citations (1)
| Title |
|---|
| Luca Bertinetto, Jack Valmadre, Joao F. Henriques,Fully-Convolutional Siamese Networks for Object Tracking,arXiv [online],arXiv:1606.09549v1,2016年01月30日,https://arxiv.org/abs/1606.09549 |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2019091464A1 (zh) | 2019-05-16 |
| CN108230359A (zh) | 2018-06-29 |
| US20200265255A1 (en) | 2020-08-20 |
| US11455782B2 (en) | 2022-09-27 |
| KR20200087784A (ko) | 2020-07-21 |
| JP2021502645A (ja) | 2021-01-28 |
| SG11202004324WA (en) | 2020-06-29 |
| PH12020550588A1 (en) | 2021-04-26 |
| CN108230359B (zh) | 2021-01-26 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7165731B2 (ja) | 目標検出方法及び装置、トレーニング方法、電子機器並びに媒体 | |
| US11170210B2 (en) | Gesture identification, control, and neural network training methods and apparatuses, and electronic devices | |
| US11270158B2 (en) | Instance segmentation methods and apparatuses, electronic devices, programs, and media | |
| JP7153090B2 (ja) | 目標オブジェクト検出方法、及び装置、電子機器、並びに記憶媒体 | |
| US11321593B2 (en) | Method and apparatus for detecting object, method and apparatus for training neural network, and electronic device | |
| US11222211B2 (en) | Method and apparatus for segmenting video object, electronic device, and storage medium | |
| US20190266409A1 (en) | Methods and apparatuses for recognizing video and training, electronic device and medium | |
| US11030750B2 (en) | Multi-level convolutional LSTM model for the segmentation of MR images | |
| JP7093427B2 (ja) | オブジェクト追跡方法および装置、電子設備並びに記憶媒体 | |
| KR102305023B1 (ko) | 키 프레임 스케줄링 방법 및 장치, 전자 기기, 프로그램과 매체 | |
| JP7163372B2 (ja) | 目標トラッキング方法及び装置、電子機器並びに記憶媒体 | |
| CN108154222B (zh) | 深度神经网络训练方法和系统、电子设备 | |
| WO2018099473A1 (zh) | 场景分析方法和系统、电子设备 | |
| CN113436100A (zh) | 用于修复视频的方法、装置、设备、介质和产品 | |
| CN114386503B (zh) | 用于训练模型的方法和装置 | |
| EP4222700A1 (en) | Sparse optical flow estimation | |
| KR20220153667A (ko) | 특징 추출 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 | |
| US11468296B2 (en) | Relative position encoding based networks for action recognition | |
| CN113139463A (zh) | 用于训练模型的方法、装置、设备、介质和程序产品 | |
| CN116310356B (zh) | 深度学习模型的训练方法、目标检测方法、装置及设备 | |
| CN114549883A (zh) | 图像处理方法、深度学习模型的训练方法、装置和设备 | |
| Kang et al. | Exploiting Lightweight Hierarchical ViT and Dynamic Framework for Efficient Visual Tracking | |
| CN116843897B (zh) | 分割模型的训练方法、图像分割方法、装置、设备和介质 | |
| US20250014158A1 (en) | Empirical characterization of user experience with arbitrary workloads in vdi environments | |
| ZHOU et al. | Neural network based scene text recognition [US Patent US 2022/0237403 A1] |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200508 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200508 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210630 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210727 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220301 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220530 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221004 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221024 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7165731 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |