[go: up one dir, main page]

CN108229509A - 用于识别物体类别的方法及装置、电子设备 - Google Patents

用于识别物体类别的方法及装置、电子设备 Download PDF

Info

Publication number
CN108229509A
CN108229509A CN201611168161.7A CN201611168161A CN108229509A CN 108229509 A CN108229509 A CN 108229509A CN 201611168161 A CN201611168161 A CN 201611168161A CN 108229509 A CN108229509 A CN 108229509A
Authority
CN
China
Prior art keywords
key point
category
convolutional neural
information
candidate frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611168161.7A
Other languages
English (en)
Other versions
CN108229509B (zh
Inventor
李步宇
闫俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN201611168161.7A priority Critical patent/CN108229509B/zh
Priority to PCT/CN2017/116218 priority patent/WO2018108129A1/zh
Publication of CN108229509A publication Critical patent/CN108229509A/zh
Priority to US16/423,061 priority patent/US10977523B2/en
Application granted granted Critical
Publication of CN108229509B publication Critical patent/CN108229509B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/457Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供一种用于识别物体类别的方法及装置、电子设备。其中,用于识别物体类别的方法包括:根据待检测图像的多个物体候选框中M个关键点的位置信息从相应的物体候选框中确定M个关键点邻域区域,其中,M为N个预设的物体类别的关键点的总个数,M和N均为正整数;根据所述M个关键点邻域区域,采用用于识别图像中物体类别的卷积神经网络模型,确定所述待检测图像中至少一个物体的类别信息。本发明实施例的用于识别物体类别的方法及装置、电子设备,实现了在单类别或多类别物体的识别,识别准确性高。尤其是对于多类别物体识别的情况下,相对现有技术,识别准确性更高。

Description

用于识别物体类别的方法及装置、电子设备
技术领域
本发明涉及图像处理的物体识别技术领域,尤其涉及一种用于识别物体类别的方法及装置、电子设备。
背景技术
随着计算机视觉技术的发展,物体检测已成为计算机视觉研究中的一个核心问题。物体检测是检测给定图像中物体的位置并识别该物体的类别。具体可划分为物体定位和物体识别两个过程,其中,物体定位是将图像中包含物体的外接矩形框(即物体候选框)找到。物体识别是在获得物体候选框之后,判断物体候选框中的物体属于哪一类别,或者候选框中无物体而属于背景。
现有的物体识别方法通过把候选框映射到卷积神经网络较深的特征图上的某一区域,对该区域做池化得到区域特征,之后再经过若干卷积层和全连接层得到其属于各类别的置信度。然而,上述方法虽已达到了识别物体类别的效果,但由于候选框中的信息较为空泛化,且在池化过程中会对很多关键位置带来较大的信息损失,因此,仍不能达到较高的物体识别的准确率,尤其是在需要识别的物体类别较多的情况下。
发明内容
本发明实施例提供一种识别物体类别的技术方案。
根据本发明实施例的一方面,提供一种用于识别物体类别的方法,包括:根据待检测图像的多个物体候选框中M个关键点的位置信息从相应的物体候选框中确定M个关键点邻域区域,其中,M为N个预设的物体类别的关键点的总个数,M和N均为正整数;根据所述M个关键点邻域区域,采用用于识别图像中物体类别的卷积神经网络模型,确定所述待检测图像中至少一个物体的类别信息。
可选地,结合本发明实施例提供的任一种用于识别物体类别的方法,其中,所述卷积神经网络模型包括K个卷积层、池化层和输出层,K为正整数;所述根据所述M个关键点邻域区域,采用用于识别图像中物体类别的卷积神经网络模型,确定所述待检测图像中至少一个物体的类别信息,包括:从第K-1个卷积层输出与所述M个关键点一一对应的特征图;从第K个卷积层输出每一所述特征图转化后得到的关键点的响应图;分别将所述M个关键点邻域区域映射到相应的关键点的响应图上得到映射区域;从池化层输出对应于M个所述映射区域的池化结果;基于M个所述池化结果从所述输出层获得属于各预设的物体类别的第一置信度,并根据所述属于各预设的物体类别的第一置信度确定所述至少一个物体的类别信息。
可选地,结合本发明实施例提供的任一种用于识别物体类别的方法,其中,所述基于M个所述池化结果从所述输出层获得属于各预设的物体类别的第一置信度,包括:对属于同一预设的物体类别的关键点相应的池化结果求取平均值得到各个预设的物体类别的分数;根据所述各个预设的物体类别的分数从所述输出层获得属于各预设的物体类别的第一置信度。
可选地,结合本发明实施例提供的任一种用于识别物体类别的方法,其中,在所述根据所述M个关键点邻域区域,采用用于识别图像中物体类别的卷积神经网络模型,确定所述待检测图像中至少一个物体的类别信息之前,所述方法还包括:对卷积神经网络模型进行训练;
所述对卷积神经网络模型进行训练,包括:获取含有关键点的位置信息、物体框标注信息以及类别标注信息的样本图像;对所述样本图像进行卷积处理,获取卷积结果;根据所述物体框标注信息以及类别标注信息,判断所述卷积结果中的物体框位置信息和/或类别信息是否满足训练完成条件;若满足,则完成对所述卷积神经网络模型的训练;若不满足,则根据所述卷积结果中物体框位置信息和/或类别信息调整所述卷积神经网络模型的参数,并根据调整后的所述卷积神经网络模型的参数对所述卷积神经网络模型进行迭代训练,直至迭代训练后的物体框位置信息和/或类别信息满足所述训练完成条件。
可选地,结合本发明实施例提供的任一种用于识别物体类别的方法,其中,在所述根据待检测图像的多个物体候选框中M个关键点的位置信息从相应的物体候选框中确定M个关键点邻域区域之前,所述方法还包括:获取所述多个物体候选框的位置;根据所述多个物体候选框的位置获取所述多个物体候选框中M个关键点的位置信息。
可选地,结合本发明实施例提供的任一种用于识别物体类别的方法,其中,所述获取所述多个物体候选框的位置,包括:采用第一卷积神经网络获得所述多个物体候选框的位置信息,或者,采用选择性搜索方法获得所述多个物体候选框的位置信息,或者,采用边缘方块Edge Box方法获得所述多个物体候选框的位置信息。
可选地,结合本发明实施例提供的任一种用于识别物体类别的方法,其中,所述根据所述多个物体候选框的位置获取所述多个物体候选框中M个关键点的位置信息,还包括:根据所述多个物体候选框的位置获取每个关键点相对应的第二置信度,所述第二置信度为表征关键点是否存在于候选框中的可能性的数据;
所述根据所述M个关键点邻域区域,采用用于识别图像中物体类别的卷积神经网络模型,确定所述待检测图像中至少一个物体的类别信息,还包括:将超过设定的置信度阈值的关键点对应的响应图的池化结果记为零。
可选地,结合本发明实施例提供的任一种用于识别物体类别的方法,其中,在所述根据待检测图像的多个物体候选框中M个关键点的位置信息从相应的物体候选框中确定M个关键点邻域区域之前,所述方法还包括:采用第二卷积神经网络对所述多个物体候选框位置纠正,获得纠正后的多个物体候选框的位置信息。
可选地,结合本发明实施例提供的任一种用于识别物体类别的方法,其中,当所述物体类别为非背景类时,所述根据待检测图像的多个物体候选框中M个关键点的位置信息从相应的物体候选框中确定M个关键点邻域区域,包括:根据相应的物体候选框的尺寸信息和预设的尺寸倍数,确定分别以所述M个关键点的位置为中心的M个矩形区域作为所述M个关键点邻域区域。
可选地,结合本发明实施例提供的任一种用于识别物体类别的方法,其中,当所述物体类别为背景类时,所述根据待检测图像的多个物体候选框中M个关键点的位置信息从相应的物体候选框中确定M个关键点邻域区域,包括:将与所述M个关键点的位置信息相应的物体候选框的区域确定为所述M个关键点邻域区域。
可选地,结合本发明实施例提供的任一种用于识别物体类别的方法,其中,所述第一卷积神经网络为区域建议网络RPN,和/或,所述第二卷积神经网络为快速区域卷积神经网络Faster R-CNN。
根据本发明实施例的另一方面,还提供一种用于识别物体类别的装置,包括:关键点邻域区域确定模块,用于根据待检测图像的多个物体候选框中M个关键点的位置信息从相应的物体候选框中确定M个关键点邻域区域,其中,M为N个预设的物体类别的关键点的总个数,M和N均为正整数;类别信息确定模块,用于根据所述M个关键点邻域区域,采用用于识别图像中物体类别的卷积神经网络模型,确定所述待检测图像中至少一个物体的类别信息。
可选地,结合本发明实施例提供的任一种用于识别物体类别的装置,其中,所述卷积神经网络模型包括K个卷积层、池化层和输出层,K为正整数;
所述类别信息确定模块包括:特征图输出单元,用于从第K-1个卷积层输出与所述M个关键点一一对应的特征图;响应图输出单元,用于从第K个卷积层输出每一所述特征图转化后得到的关键点的响应图;映射区域获取单元,用于分别将所述M个关键点邻域区域映射到相应的关键点的响应图上得到映射区域;池化结果输出单元,用于从池化层输出对应于M个所述映射区域的池化结果;置信度获取及信息确定单元,用于基于M个所述池化结果从所述输出层获得属于各预设的物体类别的第一置信度,并根据所述属于各预设的物体类别的第一置信度确定所述至少一个物体的类别信息。
可选地,结合本发明实施例提供的任一种用于识别物体类别的装置,其中,所述置信度获取及信息确定单元用于对属于同一预设的物体类别的关键点相应的池化结果求取平均值得到各个预设的物体类别的分数;根据所述各个预设的物体类别的分数从所述输出层获得属于各预设的物体类别的第一置信度。
可选地,结合本发明实施例提供的任一种用于识别物体类别的装置,其中,所述装置还包括:模型训练模块,用于对卷积神经网络模型进行训练;
所述模型训练模块用于获取含有关键点的位置信息、物体框标注信息以及类别标注信息的样本图像;对所述样本图像进行卷积处理,获取卷积结果;根据所述物体框标注信息以及类别标注信息,判断所述卷积结果中的物体框位置信息和/或类别信息是否满足训练完成条件;若满足,则完成对所述卷积神经网络模型的训练;若不满足,则根据所述卷积结果中物体框位置信息和/或类别信息调整所述卷积神经网络模型的参数,并根据调整后的所述卷积神经网络模型的参数对所述卷积神经网络模型进行迭代训练,直至迭代训练后的物体框位置信息和/或类别信息满足所述训练完成条件。
可选地,结合本发明实施例提供的任一种用于识别物体类别的装置,其中,所述装置还包括:候选框位置获取模块,用于获取所述多个物体候选框的位置;关键点位置信息获取模块,用于根据所述多个物体候选框的位置获取所述多个物体候选框中M个关键点的位置信息。
可选地,结合本发明实施例提供的任一种用于识别物体类别的装置,其中,所述候选框位置获取模块用于采用第一卷积神经网络获得所述多个物体候选框的位置信息,或者,采用选择性搜索装置获得所述多个物体候选框的位置信息,或者,采用边缘方块EdgeBox装置获得所述多个物体候选框的位置信息。
可选地,结合本发明实施例提供的任一种用于识别物体类别的装置,其中,所述关键点位置信息获取模块还用于根据所述多个物体候选框的位置获取每个关键点相对应的第二置信度,所述第二置信度为表征关键点是否存在于候选框中的可能性的数据;
所述类别信息确定模块还包括:池化结果标记单元,用于将超过设定的置信度阈值的关键点对应的响应图的池化结果记为零。
可选地,结合本发明实施例提供的任一种用于识别物体类别的装置,其中,所述装置还包括:候选框位置纠正模块,用于采用第二卷积神经网络对所述多个物体候选框位置纠正,获得纠正后的多个物体候选框的位置信息。
可选地,结合本发明实施例提供的任一种用于识别物体类别的装置,其中,当所述物体类别为非背景类时,所述关键点邻域区域确定模块用于根据相应的物体候选框的尺寸信息和预设的尺寸倍数,确定分别以所述M个关键点的位置为中心的M个矩形区域作为所述M个关键点邻域区域。
可选地,结合本发明实施例提供的任一种用于识别物体类别的装置,其中,当所述物体类别为背景类时,所述关键点邻域区域确定模块用于将与所述M个关键点的位置信息相应的物体候选框的区域确定为所述M个关键点邻域区域。
可选地,结合本发明实施例提供的任一种用于识别物体类别的装置,其中,所述第一卷积神经网络为区域建议网络RPN,和/或,所述第二卷积神经网络为快速区域卷积神经网络Faster R-CNN。
根据本发明实施例的又一方面,提供一种电子设备。所述电子设备包括:处理器、存储器、通信元件和通信总线,所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如上述提供的用于识别物体类别的方法对应的操作。
根据本发明实施例的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有:用于根据待检测图像的多个物体候选框中M个关键点的位置信息从相应的物体候选框中确定M个关键点邻域区域的可执行指令;用于根据所述M个关键点邻域区域,采用用于识别图像中物体类别的卷积神经网络模型,确定所述待检测图像中至少一个物体的类别信息的可执行指令。
根据本发明实施例提供的用于识别物体类别的方法及装置、电子设备,根据物体候选框中关键点的位置信息从相应的物体候选框中确定关键点邻域区域,进一步利用关键点邻域区域以及用于识别图像中物体类别的卷积神经网络模型,确定待检测图像中物体的类别信息。与现有技术相比,通过利用关键点的位置信息,避免了候选框中的信息较为空泛化,以及为识别过程带来较大的信息损失的缺陷,进而实现了在单类别或多类别物体的识别,识别准确性高。尤其是对于多类别物体识别的情况下,相对现有技术,识别准确性更高。
附图说明
图1是示出根据本发明实施例一的用于识别物体类别的方法的流程图;
图2是示出根据本发明实施例二的用于识别物体类别的方法的流程图;
图3是示出根据本发明实施例三的用于识别物体类别的装置的逻辑框图;
图4是示出根据本发明实施例四的用于识别物体类别的装置的逻辑框图;
图5是示出根据本发明实施例五的电子设备的结构示意图。
具体实施方式
下面结合附图详细描述本发明的示例性实施例。
本领域技术人员可以理解,本方法实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
实施例一
图1是示出根据本发明实施例一的用于识别物体类别的方法的流程图。通过包括用于识别物体类别的装置的设备执行所述方法。
参照图1,在步骤S110,根据待检测图像的多个物体候选框中M个关键点的位置信息从相应的物体候选框中确定M个关键点邻域区域。
这里,物体候选框可以是图像中包含可能是物体的外接矩形框。待检测图像可以是图片、照片、视频中某一帧图像等,但不限于此。例如,利用移动终端上的摄像头拍摄了一张狗的照片,那么该张照片就是待检测图像,在该张照片上包含狗的外接矩形框就是物体候选框。如果该张照片中还包括如椅子等其他物体,同样地,采用物体候选框对椅子等其他物体定位。由此,作为待检测图像的该张照片就含有多个物体候选框。
其中,M为N个预设的物体类别的关键点的总个数,M和N均为正整数,每个物体候选框中至少有一个物体类别的至少一个关键点,例如,0<N≤200,200<M≤4000。
举例来说,以常用物体检测数据集(如PASCAL VOC)为例,预先设定的物体类别有人、狗、火车、椅子等20个类别,可统称为非背景类,此外,并没有这20个类别物体的情况下定义为背景类。由此,物体识别问题转化为一个21类别的分类问题。对于每个类别,定义其关键点的个数,例如,类别为人时,可定义头、左手、右手、左肩、右肩等11个关键点,类别为狗时,可定义头、四肢、尾巴等10个关键点。关键点的位置信息即是关键点的坐标数据,物体候选框中关键点的位置信息可通过关键点预测技术实现。例如,利用卷积神经网络等方法进行关键点预测。
在得到了M个关键点的位置信息之后,需要确定后续做池化处理的关键点邻域区域取多大。
由此,当物体类别为非背景类时,根据本发明示例性实施例,步骤S110可包括:根据相应的物体候选框的尺寸信息和预设的尺寸倍数,确定分别以M个关键点的位置为中心的M个矩形区域作为M个关键点邻域区域。
当物体类别为背景类时,根据本发明示例性实施例,步骤S110可包括:将与M个关键点的位置信息相应的物体候选框的区域确定为M个关键点邻域区域。
例如,可以选取物体候选框的宽、高的四分之一到十分之一之间的一个数值作为关键点邻域区域的宽、高。假设物体候选框的宽为w,高为h,那么可取以关键点为中心,宽为w/5,高为h/5的区域作为该关键点的关键点邻域区域。而背景类别与上述处理不同,而是取整个物体候选框的区域作为关键点邻域区域。
在步骤S120,根据M个关键点邻域区域,采用用于识别图像中物体类别的卷积神经网络模型,确定待检测图像中至少一个物体的类别信息。
在具体的实现方式中,以200个关键点为例,待检测图像在经过卷积神经网络模型的多个卷积层得到的特征图的基础上,再加一层卷积处理使得200个特征图转化为200个关键点的响应图。200个关键点邻域区域映射到相应的关键点的响应图上得到200个映射区域,然后对这200个映射区域做池化处理得到池化结果,同一类别的各池化结果再等权重投票(即求取平均值),得到该类别的分数。包括背景类别在内的21个分数做softmax,得到任一物体候选框属于各类别的置信度。一般选取置信度最高的类别,作为物体候选框中物体的类别信息。如果背景类别的置信度最高,则确定物体候选框中没有预设类别的物体。由此,获得了物体候选框中物体的类别信息,即是确定了待检测图像中物体的类别信息。例如,假设某一待检测图像中含有五个物体候选框,其中四个物体候选框属于背景类别的置信度最高,一个物体候选框属于人这一类别的置信度最高,那么,利用本实施例的方法识别出的该图像中物体的类别信息就是人。
通过本实施例提供的用于识别物体类别的方法,通过获得含有多个物体候选框的待检测图像,进一步根据物体候选框中关键点的位置信息从相应的物体候选框中确定关键点邻域区域,最后,利用关键点邻域区域以及用于识别图像中物体类别的卷积神经网络模型,确定待检测图像中物体的类别信息。与现有技术相比,通过利用关键点的位置信息,避免了候选框中的信息较为空泛化,以及为识别过程带来较大的信息损失的缺陷,进而实现了在单类别或多类别物体的识别,识别准确性高。尤其是对于多类别物体识别的情况下,相对现有技术,识别准确性更高。
可选地,前述卷积神经网络模型具体包括K个卷积层、池化层和输出层,K为正整数。相应地,根据本发明示例性实施例,步骤S120可包括:从第K-1个卷积层输出与M个关键点一一对应的特征图;从第K个卷积层输出每一特征图转化后得到的关键点的响应图;分别将M个关键点邻域区域映射到相应的关键点的响应图上得到映射区域;从池化层输出对应于M个映射区域的池化结果;基于M个池化结果从输出层获得属于各预设的物体类别的第一置信度,并根据属于各预设的物体类别的第一置信度确定至少一个物体的类别信息。
上述过程中,所述基于M个池化结果从输出层获得属于各预设的物体类别的第一置信度的处理包括:对属于同一预设的物体类别的关键点相应的池化结果求取平均值得到各个预设的物体类别的分数;根据各个预设的物体类别的分数从输出层获得属于各预设的物体类别的第一置信度。
由此,本实施例还具有如下技术效果:卷积神经网络模型的最后一层卷积层产生的用于池化的特征图是各类别物体各关键点的响应图,不同类别的特征图数目取决于该类别定义的关键点数目,并且,在特征图上对各类别各关键点邻域区域做池化,可见,池化区域由关键点的位置决定,不同类别的池化区域不同,从而更充分有效地利用了辅助识别信息(即关键点的位置),极大地提升了物体识别的准确率。
可选地,在步骤S120之前,该用于识别物体类别的方法还包括:对卷积神经网络模型进行训练。
上述对卷积神经网络模型的训练的处理可包括:获取含有关键点的位置信息、物体框标注信息以及类别标注信息的样本图像;对所述样本图像进行卷积处理,获取卷积结果;根据所述物体框标注信息以及类别标注信息,判断所述卷积结果中的物体框位置信息和/或类别信息是否满足训练完成条件;若满足,则完成对所述卷积神经网络模型的训练;若不满足,则根据所述卷积结果中物体框位置信息和/或类别信息调整所述卷积神经网络模型的参数,并根据调整后的所述卷积神经网络模型的参数对所述卷积神经网络模型进行迭代训练,直至迭代训练后的物体框位置信息和/或类别信息满足所述训练完成条件。
在具体的实现方式中,训练数据可以使用公开数据集如PASCAL VOC的图片。PASCAL VOC中的物体有20个类别。模型训练时,每次迭代输入一张图片以及通过如卷积神经网络等方法预测出的可能的各类别的关键点位置,同时,将标注好的表征包含物体的真实区域的标准位置信息(即上述物体框标注信息)和标注好的表征物体真实类别的标准类别信息(即上述类别标注信息)作为监督信息也输入到卷积神经网络模型中。在卷积神经网络的输出层后面接上loss层来计算损失函数,通过随机梯度下降法不断迭代使得网络参数不断更新直到收敛。Loss层的作用就是以网络输出的物体框位置信息以及标准位置信息为输入,求其欧氏距离或类似的距离作为loss,而分类层把网络分类结果(即各类别的得分)和标准类别信息作为输入,以softmaxloss作为损失函数。
通过对卷积神经网络模型进行上述训练,卷积神经网络模型可以基于关键点邻域区域对待检测图像进行特征提取和物体框中物体分类,从而具有确定待检测图像中物体的类别信息的功能。
实施例二
图2是示出根据本发明实施例二的用于识别物体类别的方法的流程图。通过包括用于识别物体类别的装置的设备执行所述方法。
参照图2,在步骤S210,获取多个物体候选框的位置。
具体地,获取物体候选框的位置也就是物体定位,物体定位是把图像中的物体的外接矩形框找到。物体候选框的位置通常采用外接矩形的对角线两个端点的坐标数据来表示。
根据本发明示例性实施例,步骤S210可包括:采用第一卷积神经网络获得多个物体候选框的位置信息,或者,采用选择性搜索(Selective Search)方法获得多个物体候选框的位置信息,或者,采用边缘方块(Edge Box)方法获得多个物体候选框的位置信息。需要说明的是,第一卷积神经网络可以为区域建设网络(Region Proposal Network,RPN)。
通过上述Selective Search、RPN等方法获得的物体候选框的位置为后续关键点预测处理提供了数据基础,同时使得关键点预测的结果更加精准。
在步骤S220,采用第二卷积神经网络对多个物体候选框位置纠正,获得纠正后的多个物体候选框的位置信息。
这里,第二卷积神经网络可以为快速区域卷积神经网络(Faster RegionConvolutional Neural Network,Faster R-CNN)。利用Faster R-CNN的方法,也就是将物体候选框映射到特征图上池化出来再提取特征进行回归。这一步骤的处理可以使得物体候选框的位置更准确地贴合物体。在实际应用中,物体候选框位置的纠正还可以利用R-FCN的方法把候选框化为7*7的格子分别在不同通道池化再进行回归。
在步骤S230,根据多个物体候选框的位置获取多个物体候选框中M个关键点的位置信息。
具体地,根据物体候选框的位置获得物体候选框中关键点的位置就是关键点预测的处理。关键点预测的处理可以利用卷积神经网络等方法实现。
在具体的实现方式中,首先,需要定义每一类别的物体的关键点。举例来说,以常用物体检测数据集(如PASCAL VOC)为例,预先设定的物体类别有人、狗、火车、椅子等20个类别,此外,并没有这20个类别物体的情况下定义为背景类。由此,物体识别问题转化为一个21类别的分类问题。对于每个类别,定义其关键点的个数,例如,类别为人时,可定义头、左手、右手、左肩、右肩等11个关键点,类别为狗时,可定义头、四肢、尾巴等10个关键点;其次,可训练一深层卷积神经网络,在所有卷积层之后得到的特征图上,将物体候选框的位置映射到特征图上对应区域,对映射得到的相应区域进行池化,得到卷积神经网络学习出来的关键点分布的特征,关键点分布的特征再通过回归的方式得到物体候选框中的关键点。由于在这一步骤是没有类别信息的,需要对20类物体可能的关键点都进行回归,而背景类直接选取中心作为其关键点,不做回归预测。由于物体候选框中可能并没有全部的关键点,或者存在关键点被遮挡的问题,但仍然会有一个关键点预测的结果。也就是说,假设21个预设的物体类别的关键点的总个数为200,那么根据多个物体候选框的位置就会获得200个关键点的位置信息。
可选地,步骤S230还包括:根据多个物体候选框的位置获取每个关键点相对应的第二置信度,所述第二置信度为表征关键点是否存在于候选框中的可能性的数据。也就是说,在预测关键点位置的同时会预测每个关键点的置信度,预测出的第二置信度为后续哪些关键点邻域区域做池化处理提供了判断依据。
在步骤S240,根据待检测图像的多个物体候选框中M个关键点的位置信息从相应的物体候选框中确定M个关键点邻域区域。
其中,上述步骤S240的步骤内容与上述实施例一中步骤S110的步骤内容相同,在此不再赘述。
在步骤S250,根据M个关键点邻域区域,采用用于识别图像中物体类别的卷积神经网络模型,确定待检测图像中至少一个物体的类别信息。
由于前述步骤S230中除了获得M个关键点的位置信息外,还可根据多个物体候选框的位置获得每个关键点相对应的第二置信度。相应地,步骤S250还可包括:将超过设定的置信度阈值的关键点对应的响应图的池化结果记为零。对应于上述预测出的第二置信度为后续哪些关键点邻域区域做池化处理提供判断依据的说明,具体地,置信度低于设定的置信度阈值的关键点被视为无效,不会对其邻域做后续的池化处理,而是将视为无效的关键点对应的响应图的池化结果直接记为零。这一处理使得根据关键点邻域区域和卷积神经网络模型确定待检测图像中物体的类别信息的处理更加简化,无需所有的关键点邻域区域都做池化处理。
通过本实施例提供的用于识别物体类别的方法,在上述实施例的基础上,还具有如下技术效果:
一方面,利用RPN、Selective Search、Edge Box等方法能够准确地进行物体定位,从而为后续关键点预测处理提供了数据基础,同时使得关键点预测的结果更加精准;
另一方面,利用Faster R-CNN方法进行候选框位置纠正,进一步提高了物体定位的准确度;
再一方面,在预测关键点位置的同时还预测每个关键点的置信度,预测出的置信度能够为后续哪些关键点邻域区域做池化处理提供判断依据,从而使得根据关键点邻域区域和卷积神经网络模型确定待检测图像中物体的类别信息的处理更加简化。
实施例三
基于相同的技术构思,图3是示出根据本发明实施例三的用于识别物体类别的装置的逻辑框图。参照图3,该用于识别物体类别的装置包括关键点邻域区域确定模块310和类别信息确定模块320。
关键点邻域区域确定模块310用于根据待检测图像的多个物体候选框中M个关键点的位置信息从相应的物体候选框中确定M个关键点邻域区域,其中,M为N个预设的物体类别的关键点的总个数,M和N均为正整数。
类别信息确定模块320用于根据所述M个关键点邻域区域,采用用于识别图像中物体类别的卷积神经网络模型,确定所述待检测图像中至少一个物体的类别信息。
通过本实施例提供的用于识别物体类别的装置,通过根据物体候选框中关键点的位置信息从相应的物体候选框中确定关键点邻域区域,进一步利用关键点邻域区域以及用于识别图像中物体类别的卷积神经网络模型,确定待检测图像中物体的类别信息。与现有技术相比,通过利用关键点的位置信息,避免了候选框中的信息较为空泛化,以及为识别过程带来较大的信息损失的缺陷,进而实现了在单类别或多类别物体的识别,识别准确性高。尤其是对于多类别物体识别的情况下,相对现有技术,识别准确性更高。
实施例四
基于相同的技术构思,图4是示出根据本发明实施例四的用于识别物体类别的装置的逻辑框图。
参照图4,可选地,卷积神经网络模型包括K个卷积层、池化层和输出层,K为正整数;类别信息确定模块320包括:
特征图输出单元3201用于从第K-1个卷积层输出与M个关键点一一对应的特征图。
响应图输出单元3202用于从第K个卷积层输出每一特征图转化后得到的关键点的响应图。
映射区域获取单元3203用于分别将M个关键点邻域区域映射到相应的关键点的响应图上得到映射区域。
池化结果输出单元3204用于从池化层输出对应于M个映射区域的池化结果。
置信度获取及信息确定单元3205用于基于M个池化结果从输出层获得属于各预设的物体类别的第一置信度,并根据属于各预设的物体类别的第一置信度确定至少一个物体的类别信息。
可选地,置信度获取及信息确定单元3205用于对属于同一预设的物体类别的关键点相应的池化结果求取平均值得到各个预设的物体类别的分数;根据各个预设的物体类别的分数从输出层获得属于各预设的物体类别的第一置信度。
可选地,用于识别物体类别的装置还包括:模型训练模块(图中未示出)用于对卷积神经网络模型进行训练。
模型训练模块可用于获取含有关键点的位置信息、物体框标注信息以及类别标注信息的样本图像;对样本图像进行卷积处理,获取卷积结果;根据物体框标注信息以及类别标注信息,判断卷积结果中的物体框位置信息和/或类别信息是否满足训练完成条件;若满足,则完成对卷积神经网络模型的训练;若不满足,则根据卷积结果中物体框位置信息和/或类别信息调整卷积神经网络模型的参数,并根据调整后的卷积神经网络模型的参数对卷积神经网络模型进行迭代训练,直至迭代训练后的物体框位置信息和/或类别信息满足训练完成条件。
可选地,用于识别物体类别的装置还包括:
候选框位置获取模块330用于获取多个物体候选框的位置。
关键点位置信息获取模块340用于根据多个物体候选框的位置获取多个物体候选框中M个关键点的位置信息。
可选地,候选框位置获取模块330用于采用第一卷积神经网络获得多个物体候选框的位置信息,或者,采用选择性搜索装置获得多个物体候选框的位置信息,或者,采用边缘方块Edge Box装置获得多个物体候选框的位置信息。
可选地,关键点位置信息获取模块340还用于根据多个物体候选框的位置获取每个关键点相对应的第二置信度,第二置信度为表征关键点是否存在于候选框中的可能性的数据。
相应地,类别信息确定模块320还可以包括:池化结果标记单元3206用于将超过设定的置信度阈值的关键点对应的响应图的池化结果记为零。
可选地,用于识别物体类别的装置还包括:候选框位置纠正模块350用于采用第二卷积神经网络对多个物体候选框位置纠正,获得纠正后的多个物体候选框的位置信息。
可选地,当物体类别为非背景类时,关键点邻域区域确定模块310用于根据相应的物体候选框的尺寸信息和预设的尺寸倍数,确定分别以M个关键点的位置为中心的M个矩形区域作为M个关键点邻域区域。
可选地,当物体类别为背景类时,关键点邻域区域确定模块310用于将与M个关键点的位置信息相应的物体候选框的区域确定为M个关键点邻域区域。
可选地,第一卷积神经网络为区域建议网络RPN,和/或,第二卷积神经网络为快速区域卷积神经网络Faster R-CNN。
本实施例用于识别物体类别的装置用于实现前述多个方法实施例中相应的用于识别物体类别的方法,并具有相应的方法实施例的有益效果,在此不再赘述。
此外,本实施例的用于识别物体类别的装置可以设置于适当的电子设备中,包括但不限于移动终端、PC等。
实施例五
本发明实施例还提供了一种电子设备,例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图5,其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备500的结构示意图:如图5所示,计算机系统500包括一个或多个处理器、通信元件等,所述一个或多个处理器例如:一个或多个中央处理单元(CPU)501,和/或一个或多个图像处理器(GPU)513等,处理器可以根据存储在只读存储器(ROM)502中的可执行指令或者从存储部分508加载到随机访问存储器(RAM)503中的可执行指令而执行各种适当的动作和处理。所述通信元件可包括但不限于通信部512和通信部分509。
处理器可与只读存储器502和/或随机访问存储器530中通信以执行可执行指令,通过总线504与通信元件相连、并经通信元件与其他目标设备通信,从而完成本申请实施例提供的任一项方法对应的操作,例如,根据待检测图像的多个物体候选框中M个关键点的位置信息从相应的物体候选框中确定M个关键点邻域区域,其中,M为N个预设的物体类别的关键点的总个数,M和N均为正整数;根据所述M个关键点邻域区域,采用用于识别图像中物体类别的卷积神经网络模型,确定所述待检测图像中至少一个物体的类别信息。
此外,在RAM 503中,还可存储有装置操作所需的各种程序和数据。CPU501、ROM502以及RAM503通过总线504彼此相连。在有RAM503的情况下,ROM502为可选模块。RAM503存储可执行指令,或在运行时向ROM502中写入可执行指令,可执行指令使处理器501执行上述通信方法对应的操作。输入/输出(I/O)接口505也连接至总线504。通信部512可包括但不限于网卡,所述网卡可包括但不限于IB(Infiniband)网卡。通信部512可以集成设置,也可以设置为具有多个子模块(例如多个IB网卡),并在总线链接上。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
需要说明的,如图5所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图5的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如GPU和CPU可分离设置或者可将GPU集成在CPU上,通信部可分离设置,也可集成设置在CPU或GPU上,等等。这些可替换的实施方式均落入本发明公开的保护范围。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码,程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令,例如,根据待检测图像的多个物体候选框中M个关键点的位置信息从相应的物体候选框中确定M个关键点邻域区域,其中,M为N个预设的物体类别的关键点的总个数,M和N均为正整数;根据所述M个关键点邻域区域,采用用于识别图像中物体类别的卷积神经网络模型,确定所述待检测图像中至少一个物体的类别信息。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的方法中限定的上述功能。
可能以许多方式来实现本发明的方法和装置、设备。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (10)

1.一种用于识别物体类别的方法,其特征在于,包括:
根据待检测图像的多个物体候选框中M个关键点的位置信息从相应的物体候选框中确定M个关键点邻域区域,其中,M为N个预设的物体类别的关键点的总个数,M和N均为正整数;
根据所述M个关键点邻域区域,采用用于识别图像中物体类别的卷积神经网络模型,确定所述待检测图像中至少一个物体的类别信息。
2.根据权利要求1所述的方法,其特征在于,所述卷积神经网络模型包括K个卷积层、池化层和输出层,K为正整数;
所述根据所述M个关键点邻域区域,采用用于识别图像中物体类别的卷积神经网络模型,确定所述待检测图像中至少一个物体的类别信息,包括:
从第K-1个卷积层输出与所述M个关键点一一对应的特征图;
从第K个卷积层输出每一所述特征图转化后得到的关键点的响应图;
分别将所述M个关键点邻域区域映射到相应的关键点的响应图上得到映射区域;
从池化层输出对应于M个所述映射区域的池化结果;
基于M个所述池化结果从所述输出层获得属于各预设的物体类别的第一置信度,并根据所述属于各预设的物体类别的第一置信度确定所述至少一个物体的类别信息。
3.根据权利要求2所述的方法,其特征在于,所述基于M个所述池化结果从所述输出层获得属于各预设的物体类别的第一置信度,包括:
对属于同一预设的物体类别的关键点相应的池化结果求取平均值得到各个预设的物体类别的分数;
根据所述各个预设的物体类别的分数从所述输出层获得属于各预设的物体类别的第一置信度。
4.根据权利要求1-3中任一项所述的方法,其特征在于,在所述根据所述M个关键点邻域区域,采用用于识别图像中物体类别的卷积神经网络模型,确定所述待检测图像中至少一个物体的类别信息之前,所述方法还包括:对卷积神经网络模型进行训练;
所述对卷积神经网络模型进行训练,包括:
获取含有关键点的位置信息、物体框标注信息以及类别标注信息的样本图像;
对所述样本图像进行卷积处理,获取卷积结果;
根据所述物体框标注信息以及类别标注信息,判断所述卷积结果中的物体框位置信息和/或类别信息是否满足训练完成条件;
若满足,则完成对所述卷积神经网络模型的训练;
若不满足,则根据所述卷积结果中物体框位置信息和/或类别信息调整所述卷积神经网络模型的参数,并根据调整后的所述卷积神经网络模型的参数对所述卷积神经网络模型进行迭代训练,直至迭代训练后的物体框位置信息和/或类别信息满足所述训练完成条件。
5.根据权利要求1-4中任一项所述的方法,其特征在于,在所述根据待检测图像的多个物体候选框中M个关键点的位置信息从相应的物体候选框中确定M个关键点邻域区域之前,所述方法还包括:
获取所述多个物体候选框的位置;
根据所述多个物体候选框的位置获取所述多个物体候选框中M个关键点的位置信息。
6.根据权利要求5所述的方法,其特征在于,所述获取所述多个物体候选框的位置,包括:
采用第一卷积神经网络获得所述多个物体候选框的位置信息,或者,
采用选择性搜索方法获得所述多个物体候选框的位置信息,或者,
采用边缘方块Edge Box方法获得所述多个物体候选框的位置信息。
7.根据权利要求5或6所述的方法,其特征在于,所述根据所述多个物体候选框的位置获取所述多个物体候选框中M个关键点的位置信息,还包括:根据所述多个物体候选框的位置获取每个关键点相对应的第二置信度,所述第二置信度为表征关键点是否存在于候选框中的可能性的数据;
所述根据所述M个关键点邻域区域,采用用于识别图像中物体类别的卷积神经网络模型,确定所述待检测图像中至少一个物体的类别信息,还包括:将超过设定的置信度阈值的关键点对应的响应图的池化结果记为零。
8.根据权利要求6或7所述的方法,其特征在于,在所述根据待检测图像的多个物体候选框中M个关键点的位置信息从相应的物体候选框中确定M个关键点邻域区域之前,所述方法还包括:
采用第二卷积神经网络对所述多个物体候选框位置纠正,获得纠正后的多个物体候选框的位置信息。
9.一种用于识别物体类别的装置,其特征在于,包括:
关键点邻域区域确定模块,用于根据待检测图像的多个物体候选框中M个关键点的位置信息从相应的物体候选框中确定M个关键点邻域区域,其中,M为N个预设的物体类别的关键点的总个数,M和N均为正整数;
类别信息确定模块,用于根据所述M个关键点邻域区域,采用用于识别图像中物体类别的卷积神经网络模型,确定所述待检测图像中至少一个物体的类别信息。
10.一种电子设备,包括:处理器、存储器、通信元件和通信总线,所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-8中任一项所述的用于识别物体类别的方法对应的操作。
CN201611168161.7A 2016-12-16 2016-12-16 用于识别物体类别的方法及装置、电子设备 Active CN108229509B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201611168161.7A CN108229509B (zh) 2016-12-16 2016-12-16 用于识别物体类别的方法及装置、电子设备
PCT/CN2017/116218 WO2018108129A1 (zh) 2016-12-16 2017-12-14 用于识别物体类别的方法及装置、电子设备
US16/423,061 US10977523B2 (en) 2016-12-16 2019-05-27 Methods and apparatuses for identifying object category, and electronic devices

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611168161.7A CN108229509B (zh) 2016-12-16 2016-12-16 用于识别物体类别的方法及装置、电子设备

Publications (2)

Publication Number Publication Date
CN108229509A true CN108229509A (zh) 2018-06-29
CN108229509B CN108229509B (zh) 2021-02-26

Family

ID=62558041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611168161.7A Active CN108229509B (zh) 2016-12-16 2016-12-16 用于识别物体类别的方法及装置、电子设备

Country Status (3)

Country Link
US (1) US10977523B2 (zh)
CN (1) CN108229509B (zh)
WO (1) WO2018108129A1 (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109187534A (zh) * 2018-08-01 2019-01-11 江苏凯纳水处理技术有限公司 水质检测方法及其水样图像识别装置
CN109274625A (zh) * 2018-11-12 2019-01-25 北京邮电大学 一种信息调制方式确定方法、装置、电子设备及存储介质
CN109271842A (zh) * 2018-07-26 2019-01-25 北京纵目安驰智能科技有限公司 一种基于关键点回归的通用物体检测方法、系统、终端和存储介质
CN109448007A (zh) * 2018-11-02 2019-03-08 北京迈格威科技有限公司 图像处理方法、图像处理装置及存储介质
CN109492576A (zh) * 2018-11-07 2019-03-19 北京旷视科技有限公司 图像识别方法、装置及电子设备
CN109657537A (zh) * 2018-11-05 2019-04-19 北京达佳互联信息技术有限公司 基于目标检测的图像识别方法、系统和电子设备
CN109766928A (zh) * 2018-12-21 2019-05-17 创新奇智(重庆)科技有限公司 一种基于图像的物体分类方法、系统和电子设备
CN109886121A (zh) * 2019-01-23 2019-06-14 浙江大学 一种遮挡鲁棒的人脸关键点定位方法
CN109919149A (zh) * 2019-01-18 2019-06-21 平安科技(深圳)有限公司 基于物体检测模型的物体标注方法及相关设备
CN110121077A (zh) * 2019-05-05 2019-08-13 广州华多网络科技有限公司 一种题目生成方法、装置及设备
CN110263716A (zh) * 2019-06-21 2019-09-20 中国科学院地理科学与资源研究所 一种基于街景图像的遥感影像超分辨率土地覆被制图方法
CN110852261A (zh) * 2019-11-08 2020-02-28 北京环境特性研究所 目标检测方法、装置、电子设备和可读存储介质
CN111259822A (zh) * 2020-01-19 2020-06-09 杭州微洱网络科技有限公司 针对电商图像中模特脖颈关键点的检测方法
CN111275699A (zh) * 2020-02-11 2020-06-12 腾讯医疗健康(深圳)有限公司 医学图像的处理方法、装置、设备及存储介质
CN111428645A (zh) * 2020-03-25 2020-07-17 Oppo广东移动通信有限公司 人体关键点的检测方法、装置、电子设备及存储介质
CN112437946A (zh) * 2019-05-31 2021-03-02 乐天株式会社 非法行为推定系统、非法行为推定方法及程序
WO2021175071A1 (zh) * 2020-03-06 2021-09-10 Oppo广东移动通信有限公司 图像处理方法、装置、存储介质及电子设备
CN115272762A (zh) * 2022-07-27 2022-11-01 西安航天发动机有限公司 基于三维目标识别的货柜工具精确分类方法
CN115273192A (zh) * 2022-07-27 2022-11-01 西安航天发动机有限公司 基于三维人脸识别的货柜人员验证方法

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10769453B2 (en) * 2017-05-16 2020-09-08 Samsung Electronics Co., Ltd. Electronic device and method of controlling operation of vehicle
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
US10803323B2 (en) * 2017-05-16 2020-10-13 Samsung Electronics Co., Ltd. Electronic device and method of detecting driving event of vehicle
US11348228B2 (en) * 2017-06-26 2022-05-31 The Research Foundation For The State University Of New York System, method, and computer-accessible medium for virtual pancreatography
US11164318B2 (en) * 2017-07-18 2021-11-02 Sony Interactive Entertainment Inc. Image recognition apparatus, method, and program for enabling recognition of objects with high precision
US10635979B2 (en) * 2018-07-20 2020-04-28 Google Llc Category learning neural networks
CN109190467B (zh) * 2018-07-26 2024-08-16 北京纵目安驰智能科技有限公司 一种基于关键点回归的多物体检测方法、系统、终端和存储介质
US11322073B2 (en) * 2018-09-21 2022-05-03 Dell Products, Lp Method and apparatus for dynamically optimizing gamma correction for a high dynamic ratio image
CN109919029A (zh) * 2019-01-31 2019-06-21 深圳和而泰数据资源与云技术有限公司 黑眼圈类型识别方法、装置、计算机设备和存储介质
KR102190527B1 (ko) * 2019-02-28 2020-12-14 현대모비스 주식회사 자동 영상 합성 장치 및 방법
FR3094115B1 (fr) * 2019-03-22 2021-02-26 Idemia Identity & Security France Procede d’identification de bagages
US11113838B2 (en) * 2019-03-26 2021-09-07 Nec Corporation Deep learning based tattoo detection system with optimized data labeling for offline and real-time processing
US11176421B2 (en) 2019-06-03 2021-11-16 Wipro Limited System and method for implementing neural network models on edge devices in IoT networks
CN110688894B (zh) * 2019-08-22 2024-05-10 平安科技(深圳)有限公司 一种手掌关键点提取方法和装置
CN110782404B (zh) * 2019-10-11 2022-06-10 北京达佳互联信息技术有限公司 一种图像处理方法、装置及存储介质
CN111062263B (zh) * 2019-11-27 2023-11-03 杭州易现先进科技有限公司 手部姿态估计的方法、设备、计算机设备和存储介质
CN111126252B (zh) * 2019-12-20 2023-08-18 浙江大华技术股份有限公司 摆摊行为检测方法以及相关装置
CN111079699A (zh) * 2019-12-30 2020-04-28 北京每日优鲜电子商务有限公司 商品识别方法及装置
CN111126339A (zh) * 2019-12-31 2020-05-08 北京奇艺世纪科技有限公司 手势识别方法、装置、计算机设备和存储介质
US11783587B2 (en) * 2020-03-04 2023-10-10 Nec Corporation Deep learning tattoo match system based
CN111753635B (zh) * 2020-03-31 2023-08-04 杭州海康威视数字技术股份有限公司 化学实验操作的智能评分方法、装置及存储介质
CN111612034B (zh) * 2020-04-15 2024-04-12 中国科学院上海微系统与信息技术研究所 一种对象识别模型的确定方法、装置、电子设备及存储介质
CN111639533A (zh) * 2020-04-28 2020-09-08 深圳壹账通智能科技有限公司 基于步态特征的体态检测方法、装置、设备及存储介质
CN111640089B (zh) * 2020-05-09 2023-08-15 武汉精立电子技术有限公司 一种基于特征图中心点的缺陷检测方法及装置
CN111627029B (zh) * 2020-05-28 2023-06-16 北京字节跳动网络技术有限公司 图像实例分割结果的获取方法及装置
CN111709428B (zh) * 2020-05-29 2023-09-15 北京百度网讯科技有限公司 图像中关键点位置的识别方法、装置、电子设备及介质
CN111832559B (zh) * 2020-06-19 2024-07-02 浙江大华技术股份有限公司 目标检测方法及装置、存储介质、电子装置
CN111738800B (zh) * 2020-06-30 2021-09-28 腾讯科技(深圳)有限公司 数据推荐方法、装置、计算机设备以及存储介质
CN112016398B (zh) * 2020-07-29 2024-06-28 华为技术有限公司 手持物体识别方法及装置
CN111950451B (zh) * 2020-08-12 2024-11-22 南京师范大学 基于多尺度预测cnn及龙芯芯片的多类别目标识别方法
CN112613490B (zh) * 2021-01-08 2022-02-01 云从科技集团股份有限公司 一种行为识别方法、装置、机器可读介质及设备
CN112784743B (zh) * 2021-01-21 2023-08-04 北京百度网讯科技有限公司 关键点的识别方法、装置及存储介质
CN113065591B (zh) * 2021-03-30 2023-11-28 上海商汤智能科技有限公司 目标检测方法及装置、电子设备和存储介质
CN113553959B (zh) * 2021-07-27 2024-06-18 杭州逗酷软件科技有限公司 动作识别方法及装置、计算机可读介质和电子设备
CN113808079B (zh) * 2021-08-11 2023-06-27 同济大学 基于深度学习模型AGLNet的工业产品表面缺陷自适应检测方法
CN115730125B (zh) * 2021-08-25 2025-12-23 财付通支付科技有限公司 对象识别方法、装置、计算机设备和存储介质
US12462525B2 (en) * 2021-10-21 2025-11-04 The Toronto-Dominion Bank Co-learning object and relationship detection with density aware loss
CN114332483B (zh) * 2021-11-03 2025-07-18 腾讯科技(深圳)有限公司 对象关键点检测方法及装置、训练方法及装置和计算设备
US12340547B2 (en) * 2021-12-28 2025-06-24 Samsung Electronics Co., Ltd. Electronic device and method for detecting target objects
CN119649455B (zh) * 2024-11-29 2025-12-02 郑州大学 用于健美操训练的动作分析矫正方法、系统及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463172A (zh) * 2014-12-09 2015-03-25 中国科学院重庆绿色智能技术研究院 基于人脸特征点形状驱动深度模型的人脸特征提取方法
CN104657706A (zh) * 2015-01-27 2015-05-27 北京大学 基于图像的高铁线路线杆断裂与联接结构体异常检测方法
CN104680508A (zh) * 2013-11-29 2015-06-03 华为技术有限公司 卷积神经网络和基于卷积神经网络的目标物体检测方法
WO2015157526A1 (en) * 2014-04-09 2015-10-15 Entrupy Inc. Authenticating physical objects using machine learning from microscopic variations
CN105868269A (zh) * 2016-03-08 2016-08-17 中国石油大学(华东) 基于区域卷积神经网络的精确图像检索方法
CN106228158A (zh) * 2016-07-25 2016-12-14 北京小米移动软件有限公司 图片检测的方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559504B (zh) * 2013-11-04 2016-08-31 北京京东尚科信息技术有限公司 图像目标类别识别方法及装置
CN105335702B (zh) * 2015-10-15 2018-11-27 浙江捷尚视觉科技股份有限公司 一种基于统计学习的卡口车型识别方法
CN105678284B (zh) * 2016-02-18 2019-03-29 浙江博天科技有限公司 一种固定位人体行为分析方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104680508A (zh) * 2013-11-29 2015-06-03 华为技术有限公司 卷积神经网络和基于卷积神经网络的目标物体检测方法
WO2015157526A1 (en) * 2014-04-09 2015-10-15 Entrupy Inc. Authenticating physical objects using machine learning from microscopic variations
CN104463172A (zh) * 2014-12-09 2015-03-25 中国科学院重庆绿色智能技术研究院 基于人脸特征点形状驱动深度模型的人脸特征提取方法
CN104657706A (zh) * 2015-01-27 2015-05-27 北京大学 基于图像的高铁线路线杆断裂与联接结构体异常检测方法
CN105868269A (zh) * 2016-03-08 2016-08-17 中国石油大学(华东) 基于区域卷积神经网络的精确图像检索方法
CN106228158A (zh) * 2016-07-25 2016-12-14 北京小米移动软件有限公司 图片检测的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RICHARD LEPAGE等: "Cellular Neural Network for the Extraction of Linked Visual Features", 《1998 IEEE INTERNATIONAL JOINT CONFERENCE ON NEUTRAL NETWORKS PROCESSINGS》 *
李明: "目标检测与识别算法研究与应用", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271842A (zh) * 2018-07-26 2019-01-25 北京纵目安驰智能科技有限公司 一种基于关键点回归的通用物体检测方法、系统、终端和存储介质
CN109187534A (zh) * 2018-08-01 2019-01-11 江苏凯纳水处理技术有限公司 水质检测方法及其水样图像识别装置
CN109448007A (zh) * 2018-11-02 2019-03-08 北京迈格威科技有限公司 图像处理方法、图像处理装置及存储介质
CN109657537A (zh) * 2018-11-05 2019-04-19 北京达佳互联信息技术有限公司 基于目标检测的图像识别方法、系统和电子设备
CN109492576A (zh) * 2018-11-07 2019-03-19 北京旷视科技有限公司 图像识别方法、装置及电子设备
CN109274625A (zh) * 2018-11-12 2019-01-25 北京邮电大学 一种信息调制方式确定方法、装置、电子设备及存储介质
CN109766928B (zh) * 2018-12-21 2020-04-17 创新奇智(重庆)科技有限公司 一种基于图像的物体分类方法、系统和电子设备
CN109766928A (zh) * 2018-12-21 2019-05-17 创新奇智(重庆)科技有限公司 一种基于图像的物体分类方法、系统和电子设备
CN109919149A (zh) * 2019-01-18 2019-06-21 平安科技(深圳)有限公司 基于物体检测模型的物体标注方法及相关设备
CN109886121A (zh) * 2019-01-23 2019-06-14 浙江大学 一种遮挡鲁棒的人脸关键点定位方法
CN109886121B (zh) * 2019-01-23 2021-04-06 浙江大学 一种遮挡鲁棒的人脸关键点定位方法
CN110121077A (zh) * 2019-05-05 2019-08-13 广州华多网络科技有限公司 一种题目生成方法、装置及设备
CN110121077B (zh) * 2019-05-05 2021-05-07 广州方硅信息技术有限公司 一种题目生成方法、装置及设备
CN112437946B (zh) * 2019-05-31 2025-02-14 乐天集团股份有限公司 非法行为推定系统、非法行为推定方法及存储介质
CN112437946A (zh) * 2019-05-31 2021-03-02 乐天株式会社 非法行为推定系统、非法行为推定方法及程序
CN110263716A (zh) * 2019-06-21 2019-09-20 中国科学院地理科学与资源研究所 一种基于街景图像的遥感影像超分辨率土地覆被制图方法
CN110852261A (zh) * 2019-11-08 2020-02-28 北京环境特性研究所 目标检测方法、装置、电子设备和可读存储介质
CN110852261B (zh) * 2019-11-08 2022-06-17 北京环境特性研究所 目标检测方法、装置、电子设备和可读存储介质
CN111259822A (zh) * 2020-01-19 2020-06-09 杭州微洱网络科技有限公司 针对电商图像中模特脖颈关键点的检测方法
CN111275699A (zh) * 2020-02-11 2020-06-12 腾讯医疗健康(深圳)有限公司 医学图像的处理方法、装置、设备及存储介质
WO2021175071A1 (zh) * 2020-03-06 2021-09-10 Oppo广东移动通信有限公司 图像处理方法、装置、存储介质及电子设备
CN111428645A (zh) * 2020-03-25 2020-07-17 Oppo广东移动通信有限公司 人体关键点的检测方法、装置、电子设备及存储介质
CN115272762A (zh) * 2022-07-27 2022-11-01 西安航天发动机有限公司 基于三维目标识别的货柜工具精确分类方法
CN115273192A (zh) * 2022-07-27 2022-11-01 西安航天发动机有限公司 基于三维人脸识别的货柜人员验证方法

Also Published As

Publication number Publication date
US10977523B2 (en) 2021-04-13
WO2018108129A1 (zh) 2018-06-21
US20190279045A1 (en) 2019-09-12
CN108229509B (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN108229509B (zh) 用于识别物体类别的方法及装置、电子设备
CN110020592B (zh) 物体检测模型训练方法、装置、计算机设备及存储介质
CN112784869B (zh) 一种基于注意力感知与对抗学习的细粒度图像识别方法
CN108921057B (zh) 基于卷积神经网络的对虾形态测量方法、介质、终端设备及装置
CN112541395A (zh) 一种目标检测和跟踪方法、装置、存储介质及电子装置
CN112836625A (zh) 人脸活体检测方法、装置、电子设备
CN110909618B (zh) 一种宠物身份的识别方法及装置
CN109919002B (zh) 黄色禁停线识别方法、装置、计算机设备及存储介质
CN107480730A (zh) 电力设备识别模型构建方法和系统、电力设备的识别方法
CN107944020A (zh) 人脸图像查找方法及装置、计算机装置和存储介质
CN108229268A (zh) 表情识别及卷积神经网络模型训练方法、装置和电子设备
CN107145833A (zh) 人脸区域的确定方法和装置
CN111639629B (zh) 一种基于图像处理的猪只体重测量方法、装置及存储介质
CN110705565A (zh) 淋巴结肿瘤区域识别方法与装置
JP2017062778A (ja) 画像のオブジェクトを分類するための方法およびデバイスならびに対応するコンピュータプログラム製品およびコンピュータ可読媒体
WO2020253508A1 (zh) 异常细胞检测方法、装置及计算机可读存储介质
CN110889421A (zh) 目标物检测方法及装置
CN109426793A (zh) 一种图像行为识别方法、设备及计算机可读存储介质
CN112989995B (zh) 文本检测方法、装置及电子设备
CN109670501B (zh) 基于深度卷积神经网络的物体识别与抓取位置检测方法
CN112949571A (zh) 识别年龄的方法、年龄识别模型的训练方法和装置
CN110795975B (zh) 人脸误检优化方法及装置
CN114549968A (zh) 目标检测方法、装置以及电子设备
CN112818946A (zh) 年龄识别模型的训练、年龄识别方法、装置及电子设备
CN116258956A (zh) 无人机树木识别方法、设备、存储介质及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant