[go: up one dir, main page]

CN106845507A - 一种基于注意力的分块化目标检测方法 - Google Patents

一种基于注意力的分块化目标检测方法 Download PDF

Info

Publication number
CN106845507A
CN106845507A CN201510887751.4A CN201510887751A CN106845507A CN 106845507 A CN106845507 A CN 106845507A CN 201510887751 A CN201510887751 A CN 201510887751A CN 106845507 A CN106845507 A CN 106845507A
Authority
CN
China
Prior art keywords
network
input
picture
fully
connected network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510887751.4A
Other languages
English (en)
Inventor
钟南
成健
张建伟
张丹普
张晓林
王亚静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Changfeng Science Technology Industry Group Corp
Original Assignee
China Changfeng Science Technology Industry Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Changfeng Science Technology Industry Group Corp filed Critical China Changfeng Science Technology Industry Group Corp
Priority to CN201510887751.4A priority Critical patent/CN106845507A/zh
Publication of CN106845507A publication Critical patent/CN106845507A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2111Selection of the most significant subset of features by using evolutionary computational techniques, e.g. genetic algorithms
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physiology (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

一种基于注意力的分块化目标检测方法,首先对一幅图片,确定关注焦点,首次随机指定,找到感兴趣的小区域,然后以此为中心,创建三幅成比例大小的图片块,然后缩放到同一尺寸;将得到的三幅图片输入到递归神经网络,然后递归网络产生两个输出,一个输出进入定位网络产生定位信息,用于再次确定图片中的感兴趣目标焦点;另一个输入全连接网络用于确定本次产生的图片块是否是一个物体,如果是则反馈为1,如果不是反馈为0,作为增强学习的信号。

Description

一种基于注意力的分块化目标检测方法
技术领域
本发明属于图像信息数据处理技术领域,涉及图像信息数据处理技术在深度学习、视频分析、目标检测领域的应用。
背景技术
深度卷积神经网络在物体监测识别领域取得了目前最好的成绩,设计用来处理多维数组数据,使用4个关键的想法来利用自然信号的属性:局部连接、权值共享、池化以及多网络层的使用。
在目标检测上,主要使用selective search等方法对可能存在目标区域,提取出候选,然后输入卷积神经网络,由于每张图片要产生数千个候选,然后将每个候选输入卷积神经网络,这样速度上大大变慢。
谷歌的deepmind团队提出了一种模仿人类视觉的学习过程,按照注意力逐个处理,学习过程通过不断试错,加强正确学习的反馈,以期求得最大回报,目前只是应用到字母、数字识别等简单应用。
发明内容
现在物体识别领域,微软提出的fast-rcnn模型,在image-net数据集上效果最好,但是需要输入图片是固定尺寸的,本发明的目的是提供一种基于注意力的分块化目标检测方法,利用增强学习扩展faster-rcnn,使得输入图片尺寸可以任意大小。
本发明的技术方案如下:
一种基于注意力的分块化目标检测方法,其特征在于:
(1)构建感受器网络;输入图片的中心点定义为(0,0),左上角定位为(-1,-1),采集图片的一个目标,构成三个多分辨率的图片块,输入到全连接网络,同时定位目标直接输入一个全连接网络,将两个网络的输出同时输入到下一个全连接网络,得到输出,作为下步递归神经网络的输入;
(2)构建递归神经网络:得到感受器网络的输出,以及上次递归网络的输出作为输入,进入内部状态,再输出联结全连接网络,得到定位输出,与原始输入图片一起再次流入感受器网络,内部状态还要流入全连接网络判断是否含有物体,作为奖励,循环进行这一过程直到所有物体都已经找到或者达到指定次数;
(3)感受器网络经过多次循环得到的很多的目标候选,输入到fast-rcnn模型,确定类别和位置,其中fast-rcnn模型已经在image-net上面进行预训练。
本发明综合了基于注意力、递归神经网络、增强学习、卷积神经神经网络等目前的主流模型与方法,解决的faster-rcnn的缺陷:输入图片需要固定大小,速度大大提升,同时保证准确率。
具体实施方式
应用卷积神经网络处理大尺寸的图片,计算量是十分巨大的,人眼处理图片是基于注意力的,这样有重点的识别,而不是对看到的一幅图整体部分重点的处理。同时,人的学习过程还是一个不断加强正确认识,错误逐渐降低的过程,增强学习就是模仿这个原理。
首先对一幅图片,确定关注焦点,首次随机指定,找到感兴趣的小区域,然后以此为中心,创建三幅成比例大小的图片块,然后缩放到同一尺寸,这也就是人眼一瞥。将得到的三幅图片输入到递归神经网络,然后递归网络产生两个输出,一个输出进入定位网络产生定位信息Lt,用于再次确定图片中的感兴趣目标焦点;另一个输入全连接网络用于确定本次产生的图片块是否是一个物体,如果是则反馈为1,如果不是反馈为0,作为增强学习的信号。本发明的增强学习过程为,根据以前的图片焦点,选择下次的焦点,从而产生了一个是否含有物体的奖励,学习的目标是求取奖励最大化。奖励经过若干次循环以后,得到很多含有物体的图片块,作为fast-rcnn模型的输入,输出目标分类和位置坐标,在此之前fast-rcnn在image-net上面做了预训练。
递归神经网络的内部状体就是图片块和定位信息Lt的一种编码表达,两个输出就是增强学习所要学习的随机策略,移动到某下一定位位置,以及所获得的奖励。
(1)构建感受器网络。输入图片的中心点定义为(0,0),左上角定位(-1,-1)采集图片的一个目标,构成三个多分辨率的图片块,输入到全连接网络,同时定位目标直接输入一个全连接网络,将两个网络的输出同时输入到下一个全连接网络,得到输出,作为下步递归神经网络的输入,即g=Rect(Linear(hg)+Linear(hl))。
(2)构建递归神经网络。得到感受器网络的输出,以及上次递归网络的输出作为输入,进入内部状态,再输出联结全连接网络,得到定位输出,与原始输入图片一起再次流入感受器网络,内部状态还要流入全连接网络判断是否含有物体,作为奖励,R=sum(r1+r2+r3+...),循环进行这一过程直到所有物体都已经找到或者达到指定次数。
(3)感受器网络经过多次循环得到的很多的目标候选,输入到fast-rcnn模型,确定类别和位置,其中fast-rcnn模型已经在image-net上面进行预训练。

Claims (1)

1.一种基于注意力的分块化目标检测方法,其特征在于:
(1)构建感受器网络;输入图片的中心点定义为(0,0),左上角定位为(-1,-1),采集图片的一个目标,构成三个多分辨率的图片块,输入到全连接网络,同时定位目标直接输入一个全连接网络,将两个网络的输出同时输入到下一个全连接网络,得到输出,作为下步递归神经网络的输入;
(2)构建递归神经网络:得到感受器网络的输出,以及上次递归网络的输出作为输入,进入内部状态,再输出联结全连接网络,得到定位输出,与原始输入图片一起再次流入感受器网络,内部状态还要流入全连接网络判断是否含有物体,作为奖励,循环进行这一过程直到所有物体都已经找到或者达到指定次数;
(3)感受器网络经过多次循环得到的很多的目标候选,输入到fast-rcnn模型,确定类别和位置。
CN201510887751.4A 2015-12-07 2015-12-07 一种基于注意力的分块化目标检测方法 Pending CN106845507A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510887751.4A CN106845507A (zh) 2015-12-07 2015-12-07 一种基于注意力的分块化目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510887751.4A CN106845507A (zh) 2015-12-07 2015-12-07 一种基于注意力的分块化目标检测方法

Publications (1)

Publication Number Publication Date
CN106845507A true CN106845507A (zh) 2017-06-13

Family

ID=59151137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510887751.4A Pending CN106845507A (zh) 2015-12-07 2015-12-07 一种基于注意力的分块化目标检测方法

Country Status (1)

Country Link
CN (1) CN106845507A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108230294A (zh) * 2017-06-14 2018-06-29 北京市商汤科技开发有限公司 图像检测方法、装置、电子设备和存储介质
CN109117876A (zh) * 2018-07-26 2019-01-01 成都快眼科技有限公司 一种稠密小目标检测模型构建方法、模型及检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5706400A (en) * 1995-03-08 1998-01-06 Nec Research Institute, Inc. Fault-tolerant implementation of finite-state automata in recurrent neural networks
US20070011119A1 (en) * 2005-05-07 2007-01-11 Thaler Stephen L Device for the autonomous bootstrapping of useful information
CN104463172A (zh) * 2014-12-09 2015-03-25 中国科学院重庆绿色智能技术研究院 基于人脸特征点形状驱动深度模型的人脸特征提取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5706400A (en) * 1995-03-08 1998-01-06 Nec Research Institute, Inc. Fault-tolerant implementation of finite-state automata in recurrent neural networks
US20070011119A1 (en) * 2005-05-07 2007-01-11 Thaler Stephen L Device for the autonomous bootstrapping of useful information
CN104463172A (zh) * 2014-12-09 2015-03-25 中国科学院重庆绿色智能技术研究院 基于人脸特征点形状驱动深度模型的人脸特征提取方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108230294A (zh) * 2017-06-14 2018-06-29 北京市商汤科技开发有限公司 图像检测方法、装置、电子设备和存储介质
WO2018228336A1 (zh) * 2017-06-14 2018-12-20 北京市商汤科技开发有限公司 图像检测方法、装置、电子设备和存储介质
CN108230294B (zh) * 2017-06-14 2020-09-29 北京市商汤科技开发有限公司 图像检测方法、装置、电子设备和存储介质
US11200416B2 (en) 2017-06-14 2021-12-14 Beijing Sensetime Technology Development Co., Ltd Methods and apparatuses for image detection, electronic devices and storage media
CN109117876A (zh) * 2018-07-26 2019-01-01 成都快眼科技有限公司 一种稠密小目标检测模型构建方法、模型及检测方法
CN109117876B (zh) * 2018-07-26 2022-11-04 成都快眼科技有限公司 一种稠密小目标检测模型构建方法、模型及检测方法

Similar Documents

Publication Publication Date Title
Cao et al. Rapid detection of blind roads and crosswalks by using a lightweight semantic segmentation network
Chung et al. Comparative analysis of skeleton-based human pose estimation
CN107679522B (zh) 基于多流lstm的动作识别方法
EP4044115A1 (en) Image processing method and apparatus based on artificial intelligence, and device and storage medium
Wang et al. Learning multimodal word representation via dynamic fusion methods
CN110263833A (zh) 基于编码-解码结构的图像语义分割方法
CN113792871B (zh) 神经网络训练方法、目标识别方法、装置和电子设备
CN110765854A (zh) 一种视频动作识别方法
CN108985223B (zh) 一种人体动作识别方法
CN109145868A (zh) 一种辅助跑步训练的行为识别方法与装置
CN113723530B (zh) 基于视频分析和电子心理沙盘的智能心理评估系统
CN109377441A (zh) 具有隐私保护功能的舌像采集方法和系统
He Automatic blood cell detection based on advanced YOLOv5s network
Hua et al. Military object real-time detection technology combined with visual salience and psychology
CN109508686A (zh) 一种基于层次化特征子空间学习的人体行为识别方法
CN109461177A (zh) 一种基于神经网络的单目图像深度预测方法
CN108596256A (zh) 一种基于rgb-d物体识别分类器构造方法
Pan et al. Basket: A large-scale video dataset for fine-grained skill estimation
CN117854155A (zh) 一种人体骨骼动作识别方法及系统
CN106845507A (zh) 一种基于注意力的分块化目标检测方法
Manaf et al. Aerial image classification in post flood scenarios using robust deep learning and explainable artificial intelligence
CN117036770A (zh) 基于级联注意力的检测模型训练和目标检测方法、系统
CN114519865B (zh) 一种融合集成注意力的2d人体姿态估计方法
Wang et al. Phased feature extraction network for vehicle search tasks based on cross-camera for vehicle–road collaborative perception
CN113469053B (zh) 眼动轨迹鉴别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170613