CN106845507A - 一种基于注意力的分块化目标检测方法 - Google Patents
一种基于注意力的分块化目标检测方法 Download PDFInfo
- Publication number
- CN106845507A CN106845507A CN201510887751.4A CN201510887751A CN106845507A CN 106845507 A CN106845507 A CN 106845507A CN 201510887751 A CN201510887751 A CN 201510887751A CN 106845507 A CN106845507 A CN 106845507A
- Authority
- CN
- China
- Prior art keywords
- network
- input
- picture
- fully
- connected network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2111—Selection of the most significant subset of features by using evolutionary computational techniques, e.g. genetic algorithms
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Physiology (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
一种基于注意力的分块化目标检测方法,首先对一幅图片,确定关注焦点,首次随机指定,找到感兴趣的小区域,然后以此为中心,创建三幅成比例大小的图片块,然后缩放到同一尺寸;将得到的三幅图片输入到递归神经网络,然后递归网络产生两个输出,一个输出进入定位网络产生定位信息,用于再次确定图片中的感兴趣目标焦点;另一个输入全连接网络用于确定本次产生的图片块是否是一个物体,如果是则反馈为1,如果不是反馈为0,作为增强学习的信号。
Description
技术领域
本发明属于图像信息数据处理技术领域,涉及图像信息数据处理技术在深度学习、视频分析、目标检测领域的应用。
背景技术
深度卷积神经网络在物体监测识别领域取得了目前最好的成绩,设计用来处理多维数组数据,使用4个关键的想法来利用自然信号的属性:局部连接、权值共享、池化以及多网络层的使用。
在目标检测上,主要使用selective search等方法对可能存在目标区域,提取出候选,然后输入卷积神经网络,由于每张图片要产生数千个候选,然后将每个候选输入卷积神经网络,这样速度上大大变慢。
谷歌的deepmind团队提出了一种模仿人类视觉的学习过程,按照注意力逐个处理,学习过程通过不断试错,加强正确学习的反馈,以期求得最大回报,目前只是应用到字母、数字识别等简单应用。
发明内容
现在物体识别领域,微软提出的fast-rcnn模型,在image-net数据集上效果最好,但是需要输入图片是固定尺寸的,本发明的目的是提供一种基于注意力的分块化目标检测方法,利用增强学习扩展faster-rcnn,使得输入图片尺寸可以任意大小。
本发明的技术方案如下:
一种基于注意力的分块化目标检测方法,其特征在于:
(1)构建感受器网络;输入图片的中心点定义为(0,0),左上角定位为(-1,-1),采集图片的一个目标,构成三个多分辨率的图片块,输入到全连接网络,同时定位目标直接输入一个全连接网络,将两个网络的输出同时输入到下一个全连接网络,得到输出,作为下步递归神经网络的输入;
(2)构建递归神经网络:得到感受器网络的输出,以及上次递归网络的输出作为输入,进入内部状态,再输出联结全连接网络,得到定位输出,与原始输入图片一起再次流入感受器网络,内部状态还要流入全连接网络判断是否含有物体,作为奖励,循环进行这一过程直到所有物体都已经找到或者达到指定次数;
(3)感受器网络经过多次循环得到的很多的目标候选,输入到fast-rcnn模型,确定类别和位置,其中fast-rcnn模型已经在image-net上面进行预训练。
本发明综合了基于注意力、递归神经网络、增强学习、卷积神经神经网络等目前的主流模型与方法,解决的faster-rcnn的缺陷:输入图片需要固定大小,速度大大提升,同时保证准确率。
具体实施方式
应用卷积神经网络处理大尺寸的图片,计算量是十分巨大的,人眼处理图片是基于注意力的,这样有重点的识别,而不是对看到的一幅图整体部分重点的处理。同时,人的学习过程还是一个不断加强正确认识,错误逐渐降低的过程,增强学习就是模仿这个原理。
首先对一幅图片,确定关注焦点,首次随机指定,找到感兴趣的小区域,然后以此为中心,创建三幅成比例大小的图片块,然后缩放到同一尺寸,这也就是人眼一瞥。将得到的三幅图片输入到递归神经网络,然后递归网络产生两个输出,一个输出进入定位网络产生定位信息Lt,用于再次确定图片中的感兴趣目标焦点;另一个输入全连接网络用于确定本次产生的图片块是否是一个物体,如果是则反馈为1,如果不是反馈为0,作为增强学习的信号。本发明的增强学习过程为,根据以前的图片焦点,选择下次的焦点,从而产生了一个是否含有物体的奖励,学习的目标是求取奖励最大化。奖励经过若干次循环以后,得到很多含有物体的图片块,作为fast-rcnn模型的输入,输出目标分类和位置坐标,在此之前fast-rcnn在image-net上面做了预训练。
递归神经网络的内部状体就是图片块和定位信息Lt的一种编码表达,两个输出就是增强学习所要学习的随机策略,移动到某下一定位位置,以及所获得的奖励。
(1)构建感受器网络。输入图片的中心点定义为(0,0),左上角定位(-1,-1)采集图片的一个目标,构成三个多分辨率的图片块,输入到全连接网络,同时定位目标直接输入一个全连接网络,将两个网络的输出同时输入到下一个全连接网络,得到输出,作为下步递归神经网络的输入,即g=Rect(Linear(hg)+Linear(hl))。
(2)构建递归神经网络。得到感受器网络的输出,以及上次递归网络的输出作为输入,进入内部状态,再输出联结全连接网络,得到定位输出,与原始输入图片一起再次流入感受器网络,内部状态还要流入全连接网络判断是否含有物体,作为奖励,R=sum(r1+r2+r3+...),循环进行这一过程直到所有物体都已经找到或者达到指定次数。
(3)感受器网络经过多次循环得到的很多的目标候选,输入到fast-rcnn模型,确定类别和位置,其中fast-rcnn模型已经在image-net上面进行预训练。
Claims (1)
1.一种基于注意力的分块化目标检测方法,其特征在于:
(1)构建感受器网络;输入图片的中心点定义为(0,0),左上角定位为(-1,-1),采集图片的一个目标,构成三个多分辨率的图片块,输入到全连接网络,同时定位目标直接输入一个全连接网络,将两个网络的输出同时输入到下一个全连接网络,得到输出,作为下步递归神经网络的输入;
(2)构建递归神经网络:得到感受器网络的输出,以及上次递归网络的输出作为输入,进入内部状态,再输出联结全连接网络,得到定位输出,与原始输入图片一起再次流入感受器网络,内部状态还要流入全连接网络判断是否含有物体,作为奖励,循环进行这一过程直到所有物体都已经找到或者达到指定次数;
(3)感受器网络经过多次循环得到的很多的目标候选,输入到fast-rcnn模型,确定类别和位置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201510887751.4A CN106845507A (zh) | 2015-12-07 | 2015-12-07 | 一种基于注意力的分块化目标检测方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201510887751.4A CN106845507A (zh) | 2015-12-07 | 2015-12-07 | 一种基于注意力的分块化目标检测方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN106845507A true CN106845507A (zh) | 2017-06-13 |
Family
ID=59151137
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201510887751.4A Pending CN106845507A (zh) | 2015-12-07 | 2015-12-07 | 一种基于注意力的分块化目标检测方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN106845507A (zh) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN108230294A (zh) * | 2017-06-14 | 2018-06-29 | 北京市商汤科技开发有限公司 | 图像检测方法、装置、电子设备和存储介质 |
| CN109117876A (zh) * | 2018-07-26 | 2019-01-01 | 成都快眼科技有限公司 | 一种稠密小目标检测模型构建方法、模型及检测方法 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5706400A (en) * | 1995-03-08 | 1998-01-06 | Nec Research Institute, Inc. | Fault-tolerant implementation of finite-state automata in recurrent neural networks |
| US20070011119A1 (en) * | 2005-05-07 | 2007-01-11 | Thaler Stephen L | Device for the autonomous bootstrapping of useful information |
| CN104463172A (zh) * | 2014-12-09 | 2015-03-25 | 中国科学院重庆绿色智能技术研究院 | 基于人脸特征点形状驱动深度模型的人脸特征提取方法 |
-
2015
- 2015-12-07 CN CN201510887751.4A patent/CN106845507A/zh active Pending
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5706400A (en) * | 1995-03-08 | 1998-01-06 | Nec Research Institute, Inc. | Fault-tolerant implementation of finite-state automata in recurrent neural networks |
| US20070011119A1 (en) * | 2005-05-07 | 2007-01-11 | Thaler Stephen L | Device for the autonomous bootstrapping of useful information |
| CN104463172A (zh) * | 2014-12-09 | 2015-03-25 | 中国科学院重庆绿色智能技术研究院 | 基于人脸特征点形状驱动深度模型的人脸特征提取方法 |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN108230294A (zh) * | 2017-06-14 | 2018-06-29 | 北京市商汤科技开发有限公司 | 图像检测方法、装置、电子设备和存储介质 |
| WO2018228336A1 (zh) * | 2017-06-14 | 2018-12-20 | 北京市商汤科技开发有限公司 | 图像检测方法、装置、电子设备和存储介质 |
| CN108230294B (zh) * | 2017-06-14 | 2020-09-29 | 北京市商汤科技开发有限公司 | 图像检测方法、装置、电子设备和存储介质 |
| US11200416B2 (en) | 2017-06-14 | 2021-12-14 | Beijing Sensetime Technology Development Co., Ltd | Methods and apparatuses for image detection, electronic devices and storage media |
| CN109117876A (zh) * | 2018-07-26 | 2019-01-01 | 成都快眼科技有限公司 | 一种稠密小目标检测模型构建方法、模型及检测方法 |
| CN109117876B (zh) * | 2018-07-26 | 2022-11-04 | 成都快眼科技有限公司 | 一种稠密小目标检测模型构建方法、模型及检测方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Cao et al. | Rapid detection of blind roads and crosswalks by using a lightweight semantic segmentation network | |
| Chung et al. | Comparative analysis of skeleton-based human pose estimation | |
| CN107679522B (zh) | 基于多流lstm的动作识别方法 | |
| EP4044115A1 (en) | Image processing method and apparatus based on artificial intelligence, and device and storage medium | |
| Wang et al. | Learning multimodal word representation via dynamic fusion methods | |
| CN110263833A (zh) | 基于编码-解码结构的图像语义分割方法 | |
| CN113792871B (zh) | 神经网络训练方法、目标识别方法、装置和电子设备 | |
| CN110765854A (zh) | 一种视频动作识别方法 | |
| CN108985223B (zh) | 一种人体动作识别方法 | |
| CN109145868A (zh) | 一种辅助跑步训练的行为识别方法与装置 | |
| CN113723530B (zh) | 基于视频分析和电子心理沙盘的智能心理评估系统 | |
| CN109377441A (zh) | 具有隐私保护功能的舌像采集方法和系统 | |
| He | Automatic blood cell detection based on advanced YOLOv5s network | |
| Hua et al. | Military object real-time detection technology combined with visual salience and psychology | |
| CN109508686A (zh) | 一种基于层次化特征子空间学习的人体行为识别方法 | |
| CN109461177A (zh) | 一种基于神经网络的单目图像深度预测方法 | |
| CN108596256A (zh) | 一种基于rgb-d物体识别分类器构造方法 | |
| Pan et al. | Basket: A large-scale video dataset for fine-grained skill estimation | |
| CN117854155A (zh) | 一种人体骨骼动作识别方法及系统 | |
| CN106845507A (zh) | 一种基于注意力的分块化目标检测方法 | |
| Manaf et al. | Aerial image classification in post flood scenarios using robust deep learning and explainable artificial intelligence | |
| CN117036770A (zh) | 基于级联注意力的检测模型训练和目标检测方法、系统 | |
| CN114519865B (zh) | 一种融合集成注意力的2d人体姿态估计方法 | |
| Wang et al. | Phased feature extraction network for vehicle search tasks based on cross-camera for vehicle–road collaborative perception | |
| CN113469053B (zh) | 眼动轨迹鉴别方法及系统 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| RJ01 | Rejection of invention patent application after publication | ||
| RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170613 |