CN106845507A

CN106845507A - 一种基于注意力的分块化目标检测方法

Info

Publication number: CN106845507A
Application number: CN201510887751.4A
Authority: CN
Inventors: 钟南; 成健; 张建伟; 张丹普; 张晓林; 王亚静
Original assignee: China Changfeng Science Technology Industry Group Corp
Current assignee: China Changfeng Science Technology Industry Group Corp
Priority date: 2015-12-07
Filing date: 2015-12-07
Publication date: 2017-06-13

Abstract

一种基于注意力的分块化目标检测方法，首先对一幅图片，确定关注焦点，首次随机指定，找到感兴趣的小区域，然后以此为中心，创建三幅成比例大小的图片块，然后缩放到同一尺寸；将得到的三幅图片输入到递归神经网络，然后递归网络产生两个输出，一个输出进入定位网络产生定位信息，用于再次确定图片中的感兴趣目标焦点；另一个输入全连接网络用于确定本次产生的图片块是否是一个物体，如果是则反馈为1，如果不是反馈为0，作为增强学习的信号。

Description

一种基于注意力的分块化目标检测方法

技术领域

本发明属于图像信息数据处理技术领域，涉及图像信息数据处理技术在深度学习、视频分析、目标检测领域的应用。

背景技术

深度卷积神经网络在物体监测识别领域取得了目前最好的成绩，设计用来处理多维数组数据，使用4个关键的想法来利用自然信号的属性：局部连接、权值共享、池化以及多网络层的使用。

在目标检测上，主要使用selective search等方法对可能存在目标区域，提取出候选，然后输入卷积神经网络，由于每张图片要产生数千个候选，然后将每个候选输入卷积神经网络，这样速度上大大变慢。

谷歌的deepmind团队提出了一种模仿人类视觉的学习过程，按照注意力逐个处理，学习过程通过不断试错，加强正确学习的反馈，以期求得最大回报，目前只是应用到字母、数字识别等简单应用。

发明内容

现在物体识别领域，微软提出的fast-rcnn模型，在image-net数据集上效果最好，但是需要输入图片是固定尺寸的，本发明的目的是提供一种基于注意力的分块化目标检测方法，利用增强学习扩展faster-rcnn，使得输入图片尺寸可以任意大小。

本发明的技术方案如下：

一种基于注意力的分块化目标检测方法，其特征在于：

(1)构建感受器网络；输入图片的中心点定义为(0，0)，左上角定位为(-1，-1)，采集图片的一个目标，构成三个多分辨率的图片块，输入到全连接网络，同时定位目标直接输入一个全连接网络，将两个网络的输出同时输入到下一个全连接网络，得到输出，作为下步递归神经网络的输入；

(2)构建递归神经网络：得到感受器网络的输出，以及上次递归网络的输出作为输入，进入内部状态，再输出联结全连接网络，得到定位输出，与原始输入图片一起再次流入感受器网络，内部状态还要流入全连接网络判断是否含有物体，作为奖励，循环进行这一过程直到所有物体都已经找到或者达到指定次数；

(3)感受器网络经过多次循环得到的很多的目标候选，输入到fast-rcnn模型，确定类别和位置，其中fast-rcnn模型已经在image-net上面进行预训练。

本发明综合了基于注意力、递归神经网络、增强学习、卷积神经神经网络等目前的主流模型与方法，解决的faster-rcnn的缺陷：输入图片需要固定大小，速度大大提升，同时保证准确率。

具体实施方式

应用卷积神经网络处理大尺寸的图片，计算量是十分巨大的，人眼处理图片是基于注意力的，这样有重点的识别，而不是对看到的一幅图整体部分重点的处理。同时，人的学习过程还是一个不断加强正确认识，错误逐渐降低的过程，增强学习就是模仿这个原理。

首先对一幅图片，确定关注焦点，首次随机指定，找到感兴趣的小区域，然后以此为中心，创建三幅成比例大小的图片块，然后缩放到同一尺寸，这也就是人眼一瞥。将得到的三幅图片输入到递归神经网络，然后递归网络产生两个输出，一个输出进入定位网络产生定位信息Lt，用于再次确定图片中的感兴趣目标焦点；另一个输入全连接网络用于确定本次产生的图片块是否是一个物体，如果是则反馈为1，如果不是反馈为0，作为增强学习的信号。本发明的增强学习过程为，根据以前的图片焦点，选择下次的焦点，从而产生了一个是否含有物体的奖励，学习的目标是求取奖励最大化。奖励经过若干次循环以后，得到很多含有物体的图片块，作为fast-rcnn模型的输入，输出目标分类和位置坐标，在此之前fast-rcnn在image-net上面做了预训练。

递归神经网络的内部状体就是图片块和定位信息Lt的一种编码表达，两个输出就是增强学习所要学习的随机策略，移动到某下一定位位置，以及所获得的奖励。

(1)构建感受器网络。输入图片的中心点定义为(0，0)，左上角定位(-1，-1)采集图片的一个目标，构成三个多分辨率的图片块，输入到全连接网络，同时定位目标直接输入一个全连接网络，将两个网络的输出同时输入到下一个全连接网络，得到输出，作为下步递归神经网络的输入，即g＝Rect(Linear(hg)+Linear(hl))。

(2)构建递归神经网络。得到感受器网络的输出，以及上次递归网络的输出作为输入，进入内部状态，再输出联结全连接网络，得到定位输出，与原始输入图片一起再次流入感受器网络，内部状态还要流入全连接网络判断是否含有物体，作为奖励，R＝sum(r1+r2+r3+...)，循环进行这一过程直到所有物体都已经找到或者达到指定次数。

Claims

1.一种基于注意力的分块化目标检测方法，其特征在于：

(3)感受器网络经过多次循环得到的很多的目标候选，输入到fast-rcnn模型，确定类别和位置。