[go: up one dir, main page]

CN111160242A - 图像目标检测方法、系统、电子终端及存储介质 - Google Patents

图像目标检测方法、系统、电子终端及存储介质 Download PDF

Info

Publication number
CN111160242A
CN111160242A CN201911381794.XA CN201911381794A CN111160242A CN 111160242 A CN111160242 A CN 111160242A CN 201911381794 A CN201911381794 A CN 201911381794A CN 111160242 A CN111160242 A CN 111160242A
Authority
CN
China
Prior art keywords
image
target
frame
training
target detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911381794.XA
Other languages
English (en)
Inventor
周康明
蒋章
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Eye Control Technology Co Ltd
Original Assignee
Shanghai Eye Control Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Eye Control Technology Co Ltd filed Critical Shanghai Eye Control Technology Co Ltd
Priority to CN201911381794.XA priority Critical patent/CN111160242A/zh
Publication of CN111160242A publication Critical patent/CN111160242A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种图像目标检测方法、系统、电子终端及存储介质,所述图像目标检测方法包括:获取一待检测图像;将所述待检测图像输入到一预先训练好的图像目标检测网络模型中,所述图像目标检测网络模型基于固定的椭圆形框对所述待检测图像中的目标进行预测,输出所述待检测图像中目标的椭圆形外接框。本发明对通用的检测模型的锚点框进行改进,使得图像目标检测网络模型能够预测目标椭圆框的各项参数,输出的候选椭圆框更加贴合目标的边缘,常见的目标如人,动物,车辆等等,为文本识别打好基础,减少了多余背景信息的输入,提高识别的准确率,进而提升标检测网络的总体性能。

Description

图像目标检测方法、系统、电子终端及存储介质
技术领域
本申请涉及图像处理技术领域,特别是涉及图像目标检测技术领域,具体为一种图像目标检测方法、系统、电子终端及存储介质。
背景技术
在自然场景图片目标检测任务中,日常生活中我们往往可以见到奇形怪状的各种物体,从动物到植物等各种物体,目前目标检测网络所使用的候选框是四边形(矩形,不规则四边形等等),但由于这类候选框通常含有尖锐的角点,使得该候选框和目标的重合度不高,通常角点处并不会被目标填满,甚至根本没有目标(比如取一条鱼的最小水平外接矩形,矩形的角点处并没有鱼的像素),因而对候选框的匹配也变得不够准确,不是最优的候选框,使得网络最终没有能在最好的前提下获得最好的检测效果。
通常现有方法都是基于普通的水平矩形框进行检测,假设一般文本都是水平放置,倾斜度很小,因而使用普通的检测模型,最终理想状态下输出的是水平矩形文本检测结果框。这就明显存在两个问题:
1)照片内文本水平放置,并且倾斜角不大的假设过于理想,很多情况下,拍摄角度,或者文本物体随意放置,都可能产生轮廓非常不规则的文本图像,通常还带有透视变换的畸变等影响,可能是正方形,模型学习的样本噪声太多,最终导致检测模型难以训练,效果也不好。
2)由于按水平矩形进行检测,检测结果也是水平矩形,可能包含很多不必要的背景,或者遗漏原本突出的文本部分,增加了后续文本识别的难度,最终导致错误的产生。
申请内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供图像目标检测方法、系统、电子终端及存储介质,用于解决现有技术中目标检测网络所使用的候选框是四边形所带来的检测效果差的技术问题。
为实现上述目的及其他相关目的,本申请的第一方面提供一种图像目标检测方法,所述图像目标检测方法包括:获取一待检测图像;将所述待检测图像输入到一预先训练好的图像目标检测网络模型中,所述图像目标检测网络模型基于固定的椭圆形框对所述待检测图像中的目标进行预测,输出所述待检测图像中目标的椭圆形外接框。
于本申请的第一方面的一些实施例中,所述图像目标检测网络模型基于固定的椭圆形框对所述待检测图像中的目标进行预测包括:根据所述固定的椭圆形框的中心点,水平角度,焦距以及长轴,预测中心点偏移量,水平角度,焦距增益以及长轴增益;根据预测中心点偏移量,水平角度,焦距增益以及长轴增益形成所述待检测图像中目标的椭圆形外接框。
于本申请的第一方面的一些实施例中,所述目标检测网络模型基于固定的椭圆形框对所述待检测图像中的目标进行预测,输出所述待检测图像中目标的椭圆形外接框包括:所述图像目标检测网络模型基于固定的椭圆形框对所述待检测图像中的目标进行预测输出一候选椭圆框;将所述候选椭圆框输入到所述图像目标检测网络模型进行预测,输出所述待检测图像中目标的椭圆形外接框。
于本申请的第一方面的一些实施例中,根据预测中心点偏移量,水平角度,焦距增益以及长轴增益形成所述待检测图像中目标的椭圆形外接框包括:根据预测中心点偏移量,水平角度,焦距增益以及长轴增益形成所述候选椭圆框;预测所述候选椭圆框的中心点偏移量,水平角度,焦距增益以及长轴增益;根据预测的所述候选椭圆框的中心点偏移量,水平角度,焦距增益以及长轴增益形成所述待检测图像中目标的椭圆形外接框。
于本申请的第一方面的一些实施例中,所述目标检测网络模型的训练生成方式包括:获取标注有目标的的椭圆形外接框和目标类别的训练样本图像;将标注好的所述训练样本图像输入到RPN网络进行训练,输出一训练结果;将所述训练结果输入到Faster-RCNN网络进行训练;重复以上述步骤对所述RPN网络和所述Faster-RCNN网络进行多次迭代训练,得到所述目标检测网络模型。
于本申请的第一方面的一些实施例中,所述RPN网络和所述Faster-RCNN网络中:位置损失函数smoothL1(x)为:
Figure RE-GDA0002385142050000021
分类损失函数Lcls为:
Figure RE-GDA0002385142050000022
其中,x为训练数据标定椭圆中心坐标相对于锚点椭圆中心位置的偏移量,或者标定椭圆的长轴短轴相对于锚点椭圆的长短轴增益量,或者标定椭圆长轴关于关于水平方向的夹角和网络预测的偏移量,或者增益量或者预测长轴关于水平角度的差;y为输入图片;p(y)为输入图片y标定的类别,q(y)为输入图片y网络全连接层输出的向量对应标定类别分量的预测值。
为实现上述目的及其他相关目的,本申请的第二方面提供一种图像目标检测网络模型的训练生成方法,所述图像目标检测网络模型的训练生成方法包括:获取标注有目标的的椭圆形外接框和目标类别的训练样本图像;将标注好的所述训练样本图像输入到RPN网络进行训练,输出一训练结果;将所述训练结果输入到Faster-RCNN网络进行训练;重复以上述步骤对所述RPN网络和所述Faster-RCNN网络进行多次迭代训练,得到目标检测网络模型。
为实现上述目的及其他相关目的,本申请的第三方面提供一种图像目标检测系统,所述图像目标检测系统包括:图像获取模块,用于获取一待检测图像;图像检测模块,用于将所述待检测图像输入到一预先训练好的图像目标检测网络模型中,所述图像目标检测网络模型基于固定的椭圆形框对所述待检测图像中的目标进行预测,输出所述待检测图像中目标的椭圆形外接框。
于本申请的第三方面的一些实施例中,所述图像目标检测系统还包括:训练模块,用于获取标注有目标的的椭圆形外接框和目标类别的训练样本图像,将标注好的所述训练样本图像输入到RPN网络进行训练,输出一训练结果,并将所述训练结果输入到Faster-RCNN网络进行训练;重复对所述RPN网络和所述Faster-RCNN网络进行多次迭代训练,得到所述目标检测网络模型。
为实现上述目的及其他相关目的,本申请的第四方面提供一种电子终端,包括:处理器及存储器;所述存储器用于存储计算机程序;所述处理器用于执行所述存储器存储的计算机程序,以使所述电子终端执行如上所述的图像目标检测方法。
为实现上述目的及其他相关目的,本申请的第五方面一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的图像目标检测方法。
如上所述,本申请的图像目标检测方法、系统、电子终端及存储介质,具有以下有益效果:
本发明对通用的检测模型的锚点框进行改进,使得图像目标检测网络模型能够预测目标椭圆框的各项参数,输出的候选椭圆框更加贴合目标的边缘,常见的目标如人,动物,车辆等等,为文本识别打好基础,减少了多余背景信息的输入,提高识别的准确率,进而提升标检测网络的总体检测性能。
附图说明
图1显示为本申请一实施例中的图像目标检测方法的整体流程示意图。
图2显示为本申请一实施例中的图像目标检测方法中获取目标的椭圆形外接框的流程示意图。
图3显示为本申请一实施例中的图像目标检测方法中获取目标的椭圆形外接框的示意图。
图4显示为本申请一实施例中的图像目标检测方法中通过微调获取目标的椭圆形外接框的流程示意图。
图5显示为本申请一实施例中的图像目标检测方法中通过微调获取目标的椭圆形外接框的示意图。
图6显示为本申请一实施例中的目标检测网络模型的训练生成方法的流程示意图。
图7显示为本申请一实施例中的目标检测网络模型的训练生成方法中训练样本图像示意图。
图8显示为本申请一实施例中的图像目标检测系统的原理框图。
图9显示为本申请一实施例中的图像目标检测系统的一种优选原理框图。
图10显示为本申请一实施例中的电子终端的结构示意图。
元件标号说明
100 图像目标检测系统
110 图像获取模块
120 图像检测模块
130 训练模块
1101 处理器
1102 存储器
S100~S200 步骤
S210~S220 步骤
S221~S223 步骤
S310~S330 步骤
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
本实施例提供图像目标检测方法、系统、电子终端及存储介质,用于解决现有技术中目标检测网络所使用的候选框是四边形所带来的检测效果差的技术问题。
本实施例提出使用椭圆锚点框的方法改进现有目标检测网络的候选框的匹配效果,以 Faster-rcnn目标检测网络为例,最终得到更好的匹配结果,进而提升目标检测网络的总体检测性能。
以下将详细阐述本实施例的一种图像目标检测方法、系统、电子终端及存储介质的原理及实施方式,使本领域技术人员不需要创造性劳动即可理解本实施例的一种图像目标检测方法、系统、电子终端及存储介质。
如图1所示展示本发明一实施例中的图像目标检测方法的流程示意图。
需说明的是,所述图像目标检测方法可应用于多种类型的硬件设备。所述硬件设备例如是控制器,具体如ARM(Advanced RISC Machines)控制器、FPGA(FieldProgrammable Gate Array)控制器、SoC(System on Chip)控制器、DSP(Digital SignalProcessing)控制器、或者MCU(Micorcontroller Unit)控制器等等。所述硬件设备例如也可以是包括存储器、存储控制器、一个或多个处理单元(CPU)、外设接口、RF电路、音频电路、扬声器、麦克风、输入/输出(I/O)子系统、显示屏、其他输出或控制设备,以及外部端口等组件的计算机;所述计算机包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、智能电视、个人数字助理(Personal Digital Assistant,简称PDA)等个人电脑。在另一些实施方式中,所述硬件设备还可以是服务器,所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上,也可以由分布的或集中的服务器集群构成,本实施例不作限定。
如图1所示,在本实施例中,所述图像目标检测方法包括步骤S100至步骤S200。
步骤S100,获取一待检测图像;
步骤S200,将所述待检测图像输入到一预先训练好的图像目标检测网络模型中,所述图像目标检测网络模型基于固定的椭圆形框对所述待检测图像中的目标进行预测,输出所述待检测图像中目标的椭圆形外接框。
以下对本实施例中所述图像目标检测方法的步骤S100至步骤S200进行详细说明。
步骤S100,获取一待检测图像。
步骤S200,将所述待检测图像输入到一预先训练好的图像目标检测网络模型中,所述图像目标检测网络模型基于固定的椭圆形框对所述待检测图像中的目标进行预测,输出所述待检测图像中目标的椭圆形外接框。
原版RPN网络是属于Faster-RCNN网络的一部分,他的功能是通过输入的特征图,进行预测候选框(可能存在目标物体的框),预测出的信息是n个候选框的位置,该候选框的含义是基于固定的anchor的位置,(anchor中心点坐标的偏移量dx,dy和该框的长宽变化量dw, dh),比如anchor的固定中心点是(16,16)宽高是(20,10),如果候选框预测参数的中心点偏移量是(2,-1),宽高偏移量是(1.2,0.8),则候选框的实际位置与大小是(16+2=18,16-1=15)、(20*1.2=24,10*0.8=8),每个预测框是相对原图的水平矩形。本实施例中改进后的RPN网络将输出椭圆形候选框。
具体地,如图2所示,于本实施例中,所述图像目标检测网络模型基于固定的椭圆形框对所述待检测图像中的目标进行预测包括:
步骤S210,根据所述固定的椭圆形框的中心点,水平角度,焦距以及长轴,预测中心点偏移量,水平角度,焦距增益以及长轴增益。
具体地,预测的椭圆形框包括中心点偏移量(dx,dy),以及焦距长度增益倍数df,长轴与水平夹角a(a取值为-90度至90度),长轴长度增益dc。
例如,如图3所示,anchor的固定中心点是(16,16),水平角度,焦距,长轴为(0,10,20),预测的中心点偏移量(dx,dy)是(2,-2),水平角度,焦距增益,长轴增益为(30,1.2,0.8),那么得到的椭圆形框的中心点是(16+2,16-2),计算得到水平角度,焦距,长轴为(30,12,16)。
与现有方法相比,本实施例的图像目标检测方法使用改进的锚点框,即椭圆形框。RPN 网络回归目标的椭圆形的参数,参数包括椭圆框中心点横、纵坐标、椭圆的焦距、长轴和水平夹角。
步骤S220,根据预测中心点偏移量,水平角度,焦距增益以及长轴增益形成所述待检测图像中目标的椭圆形外接框。
原有RPN网络再获取到任意四边形的候选框之后,Faster-RCNN网络将对候选框进行再一次分类与位置微调,本实施例中,对分类与位置微调网络也进行了相应的改进。原本微调相当于又一次做了类似原版RPN网络的操作,依旧回归出一个水平矩形,改进后RPN后,分类与位置微调网络的输入就是一个椭圆形的信息,此时再使用类似改进RPN的方式。但只预测左上角点、右上角点、右下角点、左下角点的相对偏移量(dxri,dyri),这点与之前改进RPN不同,因为这四个点已经可以确定下一个框的位置了。
具体地,于本实施例中,所述目标检测网络模型基于固定的椭圆形框对所述待检测图像中的目标进行预测,输出所述待检测图像中目标的椭圆形外接框包括:
所述图像目标检测网络模型基于固定的椭圆形框对所述待检测图像中的目标进行预测输出一候选椭圆框;
将所述候选椭圆框输入到所述图像目标检测网络模型进行预测,输出所述待检测图像中目标的椭圆形外接框。
具体地,如图4所示,根据预测中心点偏移量,水平角度,焦距增益以及长轴增益形成所述待检测图像中目标的椭圆形外接框包括:
步骤S221,根据预测中心点偏移量,水平角度,焦距增益以及长轴增益形成所述候选椭圆框;
步骤S222,预测所述候选椭圆框的中心点偏移量,水平角度,焦距增益以及长轴增益;
步骤S223,根据预测的所述候选椭圆框的中心点偏移量,水平角度,焦距增益以及长轴增益形成所述待检测图像中目标的椭圆形外接框。
继续使用之前的例子,如图5所示,固定的椭圆形框为水平的椭圆形,RPN预测的椭圆候选框(倾斜的小椭圆形)的中心坐标是(18,15),计算得到水平角度,焦距,长轴为(30,12,16),的中心点偏移量(dx,dy)是(0,-1),水平角度,焦距增益,长轴增益为(5, 1.1,0.9),则微调后的候选框-此处称为预测目标中心坐标是(18,14),计算得到水平角度,焦距,长轴为(35,13.1,14.4)。其中,图5中,水平的椭圆形为固定的锚点框,倾斜的小椭圆形为RPN输出的候选椭圆框,倾斜的大椭圆形是最终微调网络输出的椭圆形外接框。
于本实施例中,如图6所示,所述目标检测网络模型的训练生成方法包括:
步骤S310,获取标注有目标的的椭圆形外接框和目标类别的训练样本图像。
如图7所示,椭圆形框是本实施例使用椭圆锚点框的示意图,标注出目标图片上的相对位置,也就是,每个目标的最小外接椭圆的以下信息:每个椭圆的中心点的x y坐标,每个椭圆的长轴与水平线之间的夹角a,焦距大小f和长轴的长度c,这样就可以在平面上确定一个椭圆。另外还需要标注出该框的类别,下图从左向右分别为人、狗、羊、人。
步骤S320,将标注好的所述训练样本图像输入到RPN网络进行训练,输出一训练结果;
步骤S330,将所述训练结果输入到Faster-RCNN网络进行训练;
重复以上述步骤对所述RPN网络和所述Faster-RCNN网络进行多次迭代训练,得到所述目标检测网络模型。
其中,于本实施例中,所述RPN网络和所述Faster-RCNN网络中:
位置损失函数smoothL1(x)为:
Figure RE-GDA0002385142050000081
分类损失函数Lcls为:
Figure RE-GDA0002385142050000082
其中,x为训练数据标定椭圆中心坐标相对于锚点椭圆中心位置的偏移量,或者标定椭圆的长轴短轴相对于锚点椭圆的长短轴增益量,或者标定椭圆长轴关于关于水平方向的夹角和网络预测的偏移量,或者增益量或者预测长轴关于水平角度的差;y为输入图片;p(y)为输入图片y标定的类别,q(y)为输入图片y网络全连接层输出的向量对应标定类别分量的预测值。
也就是说,于本实施例中,需要标注出目标的外接椭圆形的中心点坐标和长轴与水平线的夹角、焦距、长轴长度,先是训练RPN网络,后面的分类与微调参数网络不动,再训练整个Faster-RCNN网络。
本实施例中,向目标检测网络模型输入图像,进行前向传递,直接得到预测的目标的椭圆形外接框与类别。
所以本实施例对通用的检测模型的RPN网络的锚点框进行改进,以典型的Faster-RCNN 目标检测为例,将该网络的RPN网络进行改进,使得RPN网络能够预测目标椭圆框的各项参数,因此可以使得RPN输出的候选椭圆框更加贴合目标的边缘,为文本识别打好基础,减少了多余背景信息的输入,提高识别的准确率。
如图8所示,本实施例还提供一种图像目标检测系统,所述图像目标检测系统包括:图像获取模块和图像检测模块。
其中,所述图像获取模块用于获取一待检测图像;所述图像检测模块用于将所述待检测图像输入到一预先训练好的图像目标检测网络模型中,所述图像目标检测网络模型基于固定的椭圆形框对所述待检测图像中的目标进行预测,输出所述待检测图像中目标的椭圆形外接框。
如图9所示,于本实施例中,所述图像目标检测系统还包括:训练模块,用于获取标注有目标的的椭圆形外接框和目标类别的训练样本图像,将标注好的所述训练样本图像输入到 RPN网络进行训练,输出一训练结果,并将所述训练结果输入到Faster-RCNN网络进行训练;重复对所述RPN网络和所述Faster-RCNN网络进行多次迭代训练,得到所述目标检测网络模型。
本实施例的图像目标检测系统具体实现的技术特征与前述实施例中的图像目标检测方法基本相同,实施例间可以通用的技术内容不作重复赘述。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,X模块可以为单独设立的处理元件,也可以集成在电子终端的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述终端的存储器中,由上述终端的某一个处理元件调用并执行以上追踪计算模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
如图10所示,展示本申请一实施例中的电子终端的结构示意图,所述电子终端包括处理器1101和存储器1102;存储器1102通过系统总线与处理器1101连接并完成相互间的通信,存储器1102用于存储计算机程序,处理器1101用于运行计算机程序,以使所述电子终端执行所述的图像目标检测方法。上述已经对所述图像目标检测方法进行了详细说明,在此不再赘述。
另需说明的是,上述提到的系统总线可以是外设部件互连标准(PeripheralComponent Interconnect,简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture,简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问系统与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器 (non-volatile memory),例如至少一个磁盘存储器。
上述的处理器1101可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称 CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
此外,本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的图像目标检测方法。上述已经对所述图像目标检测方法进行了详细说明,在此不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,本发明对通用的检测模型的锚点框进行改进,使得图像目标检测网络模型能够预测目标椭圆框的各项参数,输出的候选椭圆框更加贴合目标的边缘,常见的目标如人,动物,车辆等等,为文本识别打好基础,减少了多余背景信息的输入,提高识别的准确率,进而提升标检测网络的总体性能。所以,本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。

Claims (11)

1.一种图像目标检测方法,其特征在于:所述图像目标检测方法包括:
获取一待检测图像;
将所述待检测图像输入到一预先训练好的图像目标检测网络模型中,所述图像目标检测网络模型基于固定的椭圆形框对所述待检测图像中的目标进行预测,输出所述待检测图像中目标的椭圆形外接框。
2.根据权利要求1所述的图像目标检测方法,其特征在于:所述图像目标检测网络模型基于固定的椭圆形框对所述待检测图像中的目标进行预测包括:
根据所述固定的椭圆形框的中心点,水平角度,焦距以及长轴,预测中心点偏移量,水平角度,焦距增益以及长轴增益;
根据预测中心点偏移量,水平角度,焦距增益以及长轴增益形成所述待检测图像中目标的椭圆形外接框。
3.根据权利要求2所述的图像目标检测方法,其特征在于:所述目标检测网络模型基于固定的椭圆形框对所述待检测图像中的目标进行预测,输出所述待检测图像中目标的椭圆形外接框包括:
所述图像目标检测网络模型基于固定的椭圆形框对所述待检测图像中的目标进行预测输出一候选椭圆框;
将所述候选椭圆框输入到所述图像目标检测网络模型进行预测,输出所述待检测图像中目标的椭圆形外接框。
4.根据权利要求3所述的图像目标检测方法,其特征在于:根据预测中心点偏移量,水平角度,焦距增益以及长轴增益形成所述待检测图像中目标的椭圆形外接框包括:
根据预测中心点偏移量,水平角度,焦距增益以及长轴增益形成所述候选椭圆框;
预测所述候选椭圆框的中心点偏移量,水平角度,焦距增益以及长轴增益;
根据预测的所述候选椭圆框的中心点偏移量,水平角度,焦距增益以及长轴增益形成所述待检测图像中目标的椭圆形外接框。
5.根据权利要求1所述的图像目标检测方法,其特征在于:所述目标检测网络模型的训练生成方式包括:
获取标注有目标的的椭圆形外接框和目标类别的训练样本图像;
将标注好的所述训练样本图像输入到RPN网络进行训练,输出一训练结果;
将所述训练结果输入到Faster-RCNN网络进行训练;
重复以上述步骤对所述RPN网络和所述Faster-RCNN网络进行多次迭代训练,得到所述目标检测网络模型。
6.根据权利要求5所述的图像目标检测方法,其特征在于:所述RPN网络和所述Faster-RCNN网络中:
位置损失函数smoothL1(x)为:
Figure FDA0002342450030000021
分类损失函数Lcls为:
Figure FDA0002342450030000022
其中,x为训练数据标定椭圆中心坐标相对于锚点椭圆中心位置的偏移量,或者标定椭圆的长轴短轴相对于锚点椭圆的长短轴增益量,或者标定椭圆长轴关于关于水平方向的夹角和网络预测的偏移量,或者增益量或者预测长轴关于水平角度的差;y为输入图片;p(y)为输入图片y标定的类别,q(y)为输入图片y网络全连接层输出的向量对应标定类别分量的预测值。
7.一种图像目标检测网络模型的训练生成方法,其特征在于:所述图像目标检测网络模型的训练生成方法包括:
获取标注有目标的的椭圆形外接框和目标类别的训练样本图像;
将标注好的所述训练样本图像输入到RPN网络进行训练,输出一训练结果;
将所述训练结果输入到Faster-RCNN网络进行训练;
重复以上述步骤对所述RPN网络和所述Faster-RCNN网络进行多次迭代训练,得到目标检测网络模型。
8.一种图像目标检测系统,其特征在于:所述图像目标检测系统包括:
图像获取模块,用于获取一待检测图像;
图像检测模块,用于将所述待检测图像输入到一预先训练好的图像目标检测网络模型中,所述图像目标检测网络模型基于固定的椭圆形框对所述待检测图像中的目标进行预测,输出所述待检测图像中目标的椭圆形外接框。
9.根据权利要求8所述的图像目标检测系统,其特征在于:所述图像目标检测系统还包括:
训练模块,用于获取标注有目标的的椭圆形外接框和目标类别的训练样本图像,将标注好的所述训练样本图像输入到RPN网络进行训练,输出一训练结果,并将所述训练结果输入到Faster-RCNN网络进行训练;重复对所述RPN网络和所述Faster-RCNN网络进行多次迭代训练,得到所述目标检测网络模型。
10.一种电子终端,其特征在于:包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述电子终端执行如权利要求1至6中任一项所述的图像目标检测方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的图像目标检测方法。
CN201911381794.XA 2019-12-27 2019-12-27 图像目标检测方法、系统、电子终端及存储介质 Pending CN111160242A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911381794.XA CN111160242A (zh) 2019-12-27 2019-12-27 图像目标检测方法、系统、电子终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911381794.XA CN111160242A (zh) 2019-12-27 2019-12-27 图像目标检测方法、系统、电子终端及存储介质

Publications (1)

Publication Number Publication Date
CN111160242A true CN111160242A (zh) 2020-05-15

Family

ID=70558664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911381794.XA Pending CN111160242A (zh) 2019-12-27 2019-12-27 图像目标检测方法、系统、电子终端及存储介质

Country Status (1)

Country Link
CN (1) CN111160242A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348035A (zh) * 2020-11-11 2021-02-09 东软睿驰汽车技术(沈阳)有限公司 车辆关键点检测方法、装置及电子设备
CN112434715A (zh) * 2020-12-10 2021-03-02 腾讯科技(深圳)有限公司 基于人工智能的目标识别方法、装置及存储介质
CN113392371A (zh) * 2021-06-29 2021-09-14 星图智绘(西安)数字科技有限公司 一种椭圆范围框标注方式
CN113836977A (zh) * 2020-06-24 2021-12-24 顺丰科技有限公司 目标检测方法、装置、电子设备及存储介质
CN114359222A (zh) * 2022-01-05 2022-04-15 多伦科技股份有限公司 一种任意多边形目标检测方法、电子设备及存储介质
CN114387605A (zh) * 2022-01-12 2022-04-22 北京百度网讯科技有限公司 文本检测方法、装置、电子设备以及存储介质
CN115797928A (zh) * 2022-12-08 2023-03-14 安徽大学 基于可旋转椭圆框的小麦条锈病菌夏孢子显微图像检测方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184787A (zh) * 2015-08-31 2015-12-23 广州市幸福网络技术有限公司 一种自动对人像进行抠图的证照相机及方法
US20170083764A1 (en) * 2015-09-23 2017-03-23 Behavioral Recognition Systems, Inc. Detected object tracker for a video analytics system
CN106611412A (zh) * 2015-10-20 2017-05-03 成都理想境界科技有限公司 贴图视频生成方法及装置
CN108010060A (zh) * 2017-12-06 2018-05-08 北京小米移动软件有限公司 目标检测方法及装置
CN108345885A (zh) * 2018-01-18 2018-07-31 浙江大华技术股份有限公司 一种目标遮挡检测的方法及装置
CN108596955A (zh) * 2018-04-25 2018-09-28 Oppo广东移动通信有限公司 一种图像检测方法、图像检测装置及移动终端
CN108647587A (zh) * 2018-04-23 2018-10-12 腾讯科技(深圳)有限公司 人数统计方法、装置、终端及存储介质
JP2019036030A (ja) * 2017-08-10 2019-03-07 日本電信電話株式会社 物体検出装置、物体検出方法及び物体検出プログラム
CN109670525A (zh) * 2018-11-02 2019-04-23 平安科技(深圳)有限公司 基于once shot detection的目标检测方法及系统
CN109785298A (zh) * 2018-12-25 2019-05-21 中国科学院计算技术研究所 一种多角度物体检测方法和系统
CN110135424A (zh) * 2019-05-23 2019-08-16 阳光保险集团股份有限公司 倾斜文本检测模型训练方法和票证图像文本检测方法
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110503102A (zh) * 2019-08-27 2019-11-26 上海眼控科技股份有限公司 车辆识别码检测方法、装置、计算机设备和存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184787A (zh) * 2015-08-31 2015-12-23 广州市幸福网络技术有限公司 一种自动对人像进行抠图的证照相机及方法
US20170083764A1 (en) * 2015-09-23 2017-03-23 Behavioral Recognition Systems, Inc. Detected object tracker for a video analytics system
CN106611412A (zh) * 2015-10-20 2017-05-03 成都理想境界科技有限公司 贴图视频生成方法及装置
JP2019036030A (ja) * 2017-08-10 2019-03-07 日本電信電話株式会社 物体検出装置、物体検出方法及び物体検出プログラム
CN108010060A (zh) * 2017-12-06 2018-05-08 北京小米移动软件有限公司 目标检测方法及装置
CN108345885A (zh) * 2018-01-18 2018-07-31 浙江大华技术股份有限公司 一种目标遮挡检测的方法及装置
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN108647587A (zh) * 2018-04-23 2018-10-12 腾讯科技(深圳)有限公司 人数统计方法、装置、终端及存储介质
CN108596955A (zh) * 2018-04-25 2018-09-28 Oppo广东移动通信有限公司 一种图像检测方法、图像检测装置及移动终端
CN109670525A (zh) * 2018-11-02 2019-04-23 平安科技(深圳)有限公司 基于once shot detection的目标检测方法及系统
CN109785298A (zh) * 2018-12-25 2019-05-21 中国科学院计算技术研究所 一种多角度物体检测方法和系统
CN110135424A (zh) * 2019-05-23 2019-08-16 阳光保险集团股份有限公司 倾斜文本检测模型训练方法和票证图像文本检测方法
CN110503102A (zh) * 2019-08-27 2019-11-26 上海眼控科技股份有限公司 车辆识别码检测方法、装置、计算机设备和存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HAOXIANG LI: "A Convolutional Neural Network Cascade for Face detection" *
LACHLAN NICHOLSON等: "QuadricSLAM: Constrained Dual Quadrics from Object Detections as Landmarks in Semantic SLAM" *
丁业兵: "基于Adaboost算法的人脸检测及OpenCV实现" *
李天煌: "基于级联结构的人脸检测若干方法研究" *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836977A (zh) * 2020-06-24 2021-12-24 顺丰科技有限公司 目标检测方法、装置、电子设备及存储介质
CN113836977B (zh) * 2020-06-24 2024-02-23 顺丰科技有限公司 目标检测方法、装置、电子设备及存储介质
CN112348035A (zh) * 2020-11-11 2021-02-09 东软睿驰汽车技术(沈阳)有限公司 车辆关键点检测方法、装置及电子设备
CN112348035B (zh) * 2020-11-11 2024-05-24 东软睿驰汽车技术(沈阳)有限公司 车辆关键点检测方法、装置及电子设备
CN112434715A (zh) * 2020-12-10 2021-03-02 腾讯科技(深圳)有限公司 基于人工智能的目标识别方法、装置及存储介质
CN113392371A (zh) * 2021-06-29 2021-09-14 星图智绘(西安)数字科技有限公司 一种椭圆范围框标注方式
WO2023273104A1 (zh) * 2021-06-29 2023-01-05 星图智绘(西安)数字科技有限公司 一种椭圆范围框标注方式
CN114359222A (zh) * 2022-01-05 2022-04-15 多伦科技股份有限公司 一种任意多边形目标检测方法、电子设备及存储介质
CN114359222B (zh) * 2022-01-05 2024-07-05 多伦科技股份有限公司 一种任意多边形目标检测方法、电子设备及存储介质
CN114387605A (zh) * 2022-01-12 2022-04-22 北京百度网讯科技有限公司 文本检测方法、装置、电子设备以及存储介质
CN115797928A (zh) * 2022-12-08 2023-03-14 安徽大学 基于可旋转椭圆框的小麦条锈病菌夏孢子显微图像检测方法
CN115797928B (zh) * 2022-12-08 2025-11-14 安徽大学 基于可旋转椭圆框的小麦条锈病菌夏孢子显微图像检测方法

Similar Documents

Publication Publication Date Title
CN111160242A (zh) 图像目标检测方法、系统、电子终端及存储介质
US10803554B2 (en) Image processing method and device
JP5538435B2 (ja) 画像特徴抽出方法及びシステム
CN112560980A (zh) 目标检测模型的训练方法、装置及终端设备
US11036967B2 (en) Method and device for face selection, recognition and comparison
CN109784250B (zh) 自动引导小车的定位方法和装置
US12373928B2 (en) Image correction method and computing device utilizing method
WO2019196542A1 (zh) 一种图像处理的方法及装置
CN112183517A (zh) 证卡边缘检测方法、设备及存储介质
US20190355104A1 (en) Image Correction Method and Apparatus
CN112507938A (zh) 一种文本图元的几何特征计算方法及识别方法、装置
KR102421604B1 (ko) 이미지 처리 방법, 장치 및 전자 기기
CN111753858A (zh) 一种点云匹配方法、装置和重定位系统
CN111709912B (zh) 一种圆弧边缘检测方法、装置及存储介质
CN119648913A (zh) 一种街道场景的重建方法、电子设备及存储介质
CN113902001A (zh) 一种模型训练方法、装置、电子设备及存储介质
CN113807407B (zh) 目标检测模型训练方法、模型性能检测方法及装置
CN113496134A (zh) 二维码定位方法、装置、设备及存储介质
CN117522963A (zh) 棋盘格的角点定位方法、装置、存储介质及电子设备
CN117253022A (zh) 一种对象识别方法、装置及查验设备
CN108564571A (zh) 图像区域选取方法及终端设备
CN116486153A (zh) 图像分类方法、装置、设备及存储介质
CN115512367A (zh) 纸张图像标准化方法、装置、计算机设备和存储介质
AU2021290436A1 (en) Object recognition method, apparatus, device and storage medium
CN112529943A (zh) 一种物体检测方法、物体检测装置及智能设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20240105