[go: up one dir, main page]

CN116958561A - 检测异常对象的方法、装置和存储介质 - Google Patents

检测异常对象的方法、装置和存储介质 Download PDF

Info

Publication number
CN116958561A
CN116958561A CN202210332651.5A CN202210332651A CN116958561A CN 116958561 A CN116958561 A CN 116958561A CN 202210332651 A CN202210332651 A CN 202210332651A CN 116958561 A CN116958561 A CN 116958561A
Authority
CN
China
Prior art keywords
image
pixel
captured image
map
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210332651.5A
Other languages
English (en)
Inventor
汪洁
钟朝亮
冯成
张颖
孙俊
张楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN202210332651.5A priority Critical patent/CN116958561A/zh
Priority to JP2023043981A priority patent/JP2023152836A/ja
Publication of CN116958561A publication Critical patent/CN116958561A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

公开了检测异常对象的方法、装置和存储介质。该方法包括:拍摄某一场景的图像;计算拍摄图像与参考图像之间的差图像,差图像指示拍摄图像与参考图像之间的像素级差异;由神经网络的第一编码器、第二编码器、第三编码器分别针对参考图像、拍摄图像、差图像提取具有多个尺寸的多个特征图;将编码器各自提取的具有相同尺寸的特征图进行融合,融合的特征图被输入神经网络的解码器;由解码器基于融合的特征图生成与拍摄图像尺寸相同的变化图,变化图中的每个像素的值指示拍摄图像中的像素相对于参考图像中的对应像素是否发生语义变化;以及基于变化图来识别场景中出现的异常对象。

Description

检测异常对象的方法、装置和存储介质
技术领域
本公开内容总体上涉及图像处理,更具体地,涉及在图像中检测异常对象的方法、装置和存储介质。
背景技术
目前已经提出了保障公共安全的各种技术,其中重要的一种技术是监视特定环境以发现其中出现的异常对象。例如,监视道路上出现的异常物体,诸如动物,雪堆,遗落物等。异常对象检测任务富有挑战性。一方面,异常对象的种类、外形、尺寸等特征多种多样,因此很难被准确定义。另一方面,收集各种异常对象的数据并进行人工标注非常耗费时间和人力,因此现有的关于异常对象检测的研究通常是将异常对象当作未知物,即,异常对象是训练数据中不存在的类别。
目前的一些异常对象检测方法采用基于深度学习的图像生成和图像分割技术,并且基于以下认识:由于训练数据不包括异常对象,因此使用训练数据得到的图像分割模型只能分割已知对象,并且使用训练数据得到的图像生成模型只能生成已知对象。然后,将模型生成的图像与原始图像进行比较,未被重建出来的区域就对应于异常对象。在KrzysztofLis等人的论文“Detecting the Unexpected via Image Resynthesis”(IEEE/CVF计算机视觉国际会议(ICCV)论文集,2019)中描述了一种这样的检测方法(DUIR)。
另一些检测方法考虑模型的输出,并且基于以下认识:在模型预测图像中的特定像素属于各种已知类别的概率时,如果该特定像素对应于已知对象,则模型预测的分类概率相对较高。如果该特定像素对应于未知对象,则模型预测的分类概率相对较低。因此可以根据小于特定阈值的预测概率来确定与未知的异常对象对应的像素,进而确定图像中异常对象的位置。
现有检测方法的优点在于可以使用单个图像来确定异常对象出现的位置,但是这些基于单个图像的异常检测方法的泛化性和鲁棒性很差,容易受到环境的影响而产生漏识和误识。
发明内容
针对上述技术问题,本公开内容提出了一种新的异常对象检测方案,其利用两个图像之间的低级差异,通过具有新颖结构的神经网络来实现异常对象的识别。该方案具有显著提高的鲁棒性和泛化性。
根据本发明的一个方面,提供了一种利用神经网络检测异常对象的方法,包括:拍摄某一场景的图像;计算拍摄图像与参考图像之间的差图像,其中,差图像指示拍摄图像与参考图像之间的像素级差异;由神经网络的第一编码器针对参考图像提取具有多个尺寸的多个特征图,由神经网络的第二编码器针对拍摄图像提取具有所述多个尺寸的多个特征图,并且由神经网络的第三编码器针对差图像提取具有所述多个尺寸的多个特征图;将第一编码器、第二编码器和第三编码器各自提取的具有相同尺寸的特征图进行融合,并且将融合的特征图输入神经网络的解码器;由解码器基于融合的特征图生成与拍摄图像尺寸相同的变化图,其中,变化图中的每个像素的值指示拍摄图像中的像素相对于参考图像中的对应像素是否发生语义变化;以及基于变化图来识别场景中出现的异常对象。
根据本发明的另一个方面,提供了一种利用神经网络检测异常对象的装置,包括:存储有计算机程序的存储器;以及处理器,处理器被配置为通过执行计算机程序而执行以下操作:计算针对某一场景拍摄的图像与参考图像之间的差图像,其中,差图像指示拍摄图像与参考图像之间的像素级差异;使神经网络的第一编码器针对参考图像提取具有多个尺寸的多个特征图;使神经网络的第二编码器针对拍摄图像提取具有所述多个尺寸的多个特征图;使神经网络的第三编码器针对差图像提取具有所述多个尺寸的多个特征图;将第一编码器、第二编码器和第三编码器各自提取的具有相同尺寸的特征图进行融合,并且将融合的特征图输入神经网络的解码器;使解码器基于融合的特征图生成与拍摄图像尺寸相同的变化图,其中,变化图中的每个像素的值指示拍摄图像中的像素相对于参考图像中的对应像素是否发生语义变化;以及基于变化图来识别场景中出现的异常对象。
根据本发明的另一个方面,提供了一种存储有计算机程序的存储介质,所述计算机程序在被计算机执行时使得所述计算机执行如上所述的用于检测异常对象的方法。
附图说明
图1示意性地示出了根据本公开内容的异常对象检测方案的框架。
图2示出了图1中的各个图像的示例。
图3示意性地示出了根据本公开内容的神经网络的架构。
图4示意性地示出了根据本公开内容的检测异常对象的方法的流程图。
图5A-图5C示出了根据本公开内容的方案与现有技术DUIR的识别结果的比较。
图6示出了实现本发明的计算机硬件的示例性配置框图。
具体实施方式
图1示意性地示出了根据本公开内容的异常对象检测方案的框架,图2示出了图1中的各个图像的示例。
如图1所示,基于预先确定的参考图像和当前拍摄的图像来生成二者之间的差图像。参考图像和拍摄图像可以是在不同时间针对同一场景拍摄的图像。优选地,参考图像和拍摄图像是配准的,以便于计算差图像。在参考图像与拍摄不配准的情况下,可以对拍摄图像应用适当的图像处理技术以使其与参考图像配准。鉴于图像配准方法是本领域中的公知技术,本公开内容中将省略其具体描述。此外,在本公开内容中,场景可以包括但不限于道路、航道、建筑物、庭院、城市、农田等。参考图像和拍摄图像例如可以是由摄像设备拍摄的图像,或者是由卫星拍摄的遥感图像。
差图像指示拍摄图像中的每个像素与参考图像中的相应像素之间的差异。这种基于低级特征的差异经常包含由于光照强度,阴影,天气等的变化而引起的差异,因此如果仅基于差图像来检测有关对象的变化,则容易发生错误识别。但另一方面,由于这种基于低级特征的差异也包含由于真实的对象变化而引起的差异,因此也可以被利用。
作为生成差图像的方法的一个示例,本公开内容中采用结构相似度(SSIM)算法。使用该方法生成的差图像能够反映两个图像在结构上的差异,并且可以部分避免光照等因素所造成的差异。在Zhou Wang等人的论文“Image quality assessment:from errorvisibility to structural similarity”(IEEE图像处理汇刊,2004,13(4))中具体描述了SSIM方法。此外,本领域技术人员可以采用其它适当的技术来计算差图像,本公开内容对此不作限制。
参考图像、拍摄图像和差图像被输入至神经网络的编码器100。编码器100针对每个图像提取特征,并且将提取的特征进行融合。融合的特征被输入至神经网络的解码器200,解码器200针对输入的融合特征进行解码,并且生成变化图。变化图能够反映出拍摄图像中各个像素相对于参考图像中各个像素是否发生语义变化,以及图像中发生语义变化的区域。在本公开内容中,像素的语义变化可以被理解为像素的类别发生改变。例如,在同一道路的晴天和雨天的不同图像之间存在像素级的变化(例如颜色、亮度的变化),而不存在语义变化。在干净的道路图像和有掉落物品的道路图像之间存在语义变化,因为对应于掉落物品的像素的类别从“道路”改变为“物品”。
具体来说,变化图可以是二值图,并且与参考图像和拍摄图像具有相同的尺寸。变化图中为“1”的像素值可以指示拍摄图像中的像素相对于参考图像中的对应像素发生语义变化,为“0”的像素值可以指示拍摄图像中的像素相对于参考图像中的对应像素没有发生语义变化。反之亦然,可以由像素值“1”指示没有发生语义变化,由像素值“0”指示发生语义变化。
然后,可以根据变化图中出现语义变化的区域,将拍摄图像中的相对应区域确定为出现的异常对象。
图2示出了参考图像、拍摄图像、差图像和变化图的示例。如图2所示,参考图像是由固定的摄像设备预先拍摄的道路的图像,并且图像中不包含除道路之外的任何对象。拍摄图像是由同一摄像设备当前拍摄的同一道路的图像,并且图像中包含诸如车辆和掉落物品的对象。差图像中反映了参考图像和拍摄图像在结构上的差异。变化图示出了发生语义变化的区域,据此可以容易地识别出道路中出现了新的对象以及对象所在的位置,可以将识别出的对象确定为场景中出现的异常对象。
然而,在一些情况下,变化图中示出的发生语义变化的区域可能对应于监视者已知的对象(例如道路上行驶的车辆),而已知对象不是监视者所关注的。因此,优选地,可以在变化图中过滤掉对应于已知对象的变化区域,以利于更准确地检测未知对象(例如掉落的物品)。
具体来说,可以将用于检测一种或多种已知对象的一个或多个检测器应用于拍摄图像,以检测拍摄图像中的已知对象。例如,可以利用车辆检测器来检测拍摄图像中的车辆对象。本领域技术人员可以使用各种现有技术来实现这样的对象检测器,由于这是本领域中公知的技术,因此本公开内容中将省略其具体描述。当检测出已知对象之后,可以在变化图中将对应于所检测的已知对象的像素设置为指示没有发生语义变化的值(例如“0”)。以此方式,更新后的变化图将不再指示对应于正常对象(如车辆)的变化区域,而仅指示对应于异常对象(如掉落物品)的变化区域。利用该变化图可以更准确地识别在场景中出现的未知的异常对象。
图3示意性地示出了根据本公开内容的神经网络的架构。如图3所示,神经网络具有编码器-解码器结构,更具体地,包括三个编码器以及与它们连接的解码器。参考图像被输入至第一编码器310,拍摄图像被输入至第二编码器320,差图像被输入至第三编码器330。编码器310、320、330中的每一个均包括一个单独的卷积模块以及三个组,每个组中包括一个下采样层(最大池化层)和一个卷积模块。为了清楚,图3中仅示出了第一组的具体结构,第二组和第三组也具有相同的结构。优选地,三个编码器之间不共享参数。
解码器400包括卷积层、sigmoid激活层以及三个组,每个组中包括一个上采样层和一个卷积模块。图3中仅示出了第一组的具体结构,第二组和第三组也具有相同的结构。
在每个编码器中,由单独的卷积模块对输入的相应图像提取特征图。所提取的特征图被输入至第一组中,依次经历下采样层的下采样操作和卷积模块的操作。从第一组的卷积模块输出的特征图的尺寸减小,并且被输入至第二组中。第二组执行与第一组相同的操作,并且将提取的尺寸进一步减小的特征图输入至第三组中。第三组执行相同的操作。
此外,三个编码器的第三组所输出的特征图具有彼此相同的尺寸并且被相互融合,融合后的特征图(下文中称为“第三融合特征图”)被输入至解码器400的第一组中的上采样层。三个编码器的第二组所输出的特征图具有彼此相同的尺寸并且被相互融合,融合后的特征图(下文中称为“第二融合特征图”)被输入至解码器400的第一组中,以用于后文将描述的拼接操作。三个编码器的第一组所输出的特征图具有彼此相同的尺寸并且被相互融合,融合后的特征图(下文中称为“第一融合特征图”)被输入至解码器400的第二组中以用于拼接操作。三个编码器的单独卷积模块所输出的特征图具有彼此相同的尺寸并且被相互融合,融合后的特征图(下文中称为“第四融合特征图”)被输入至解码器400的第三组中以用于拼接操作。优选地,特征图的融合可以通过对特征图进行拼接来实现。
在解码器400的第一组中,由上采样层对第三融合特征图执行上采样。经上采样后的特征图的尺寸增大至与来自编码器的第二融合特征图的尺寸相同。对该上采样后的特征图与第二融合特征图进行拼接,拼接后的特征图被输入至第一组中的卷积模块。由卷积模块进行特征解码,卷积模块的输出被输入至第二组中的上采样层。
在解码器400的第二组中,由上采样层对第一组输出的特征图执行上采样。经上采样后的特征图的尺寸增大至与来自编码器的第一融合特征图的尺寸相同。对该上采样后的特征图与第一融合特征图进行拼接,拼接后的特征图被输入至第二组中的卷积模块。由卷积模块进行特征解码,卷积模块的输出被输入至第三组中的上采样层。
在解码器400的第三组中,由上采样层对第二组输出的特征图执行上采样。经上采样后的特征图的尺寸增大至与来自编码器的第四融合特征图的尺寸相同。对该上采样后的特征图与第四融合特征图进行拼接,拼接后的特征图被输入至第三组中的卷积模块。由卷积模块进行特征解码,卷积模块的输出被输入至解码器400中的1×1卷积层。
在完成1×1卷积层和sigmoid激活层的处理之后,解码器400输出尺寸与拍摄图像相同的变化图。
作为一个示例,编码器310-330和解码器400中的每一个的卷积模块可以由3×3卷积层,批标准化(batch normalization),ReLu激活层,3×3卷积层、批标准化、ReLu激活层组成。此外,例如,下采样层的核大小可以是2×2,上采样层的核大小可以是2×2。
需要说明的是,根据本公开内容的神经网络并不限于图3中所示的结构,本领域技术人员可以做出技术上可行的修改。作为更广义的限定,在本公开内容中,每个编码器可以包括N组下采样层和卷积模块,相应地解码器可以包括N组上采样层和卷积模块,其中N为大于2的自然数。
以下描述根据公开内容的神经网络的训练方法。可以利用训练图像集基于交叉熵损失函数来训练该神经网络。训练图像集可以包括彼此配准的拍摄图像训练样本和参考图像训练样本,以及与每对参考图像样本和拍摄图像样本相对应的已标记的变化图。交叉熵损失函数可以由以下数学式(1)表示:
其中,表示针对第i对参考图像样本和拍摄图像样本中的第j个像素的真实标签,其表示拍摄图像样本的第j个像素相对于参考图像样本的第j个像素是否发生语义变化的真实情况。pj表示神经网络针对第j个像素预测的发生语义变化的概率,n表示参考图像样本和拍摄图像样本对的数目,H表示图像高度,W表示图像宽度。
以下结合图4来描述根据本公开内容的检测异常对象的方法的流程图。如图4所示,在步骤S410,计算参考图像与拍摄图像之间的差图像。参考图像和拍摄图像可以是在不同时间针对同一场景拍摄的图像,差图像指示拍摄图像与参考图像之间的像素级别的差异。优选地,参考图像是预先拍摄的场景中不包含对象的图像,并且参考图像与拍摄图像对准。
在步骤S420,由神经网络的第一编码器针对参考图像提取具有多个尺寸的多个特征图,由第二编码器针对拍摄图像提取具有多个尺寸的多个特征图,并且由第三编码器针对差图像提取具有多个尺寸的多个特征图。
在步骤S430,将第一编码器、第二编码器和第三编码器各自提取的具有相同尺寸的特征图进行融合,并且将融合后的特征图输入至神经网络的解码器。
在步骤S440,由解码器基于输入的融合特征图生成与拍摄图像尺寸相同的变化图。优选地,该变化图是二值图,其中的每个像素的值指示拍摄图像中的像素相对于参考图像中的对应像素是否发生语义变化。
在步骤S450,基于变化图来识别场景中出现的异常对象。优选地并且可选地,可以利用针对已知对象的检测器在拍摄图像中检测已知对象,并且根据检测结果来修改变化图,然后基于修改后的变化图识别异常对象。
表1示出了根据本公开内容的方案和比较例的性能评价。根据评价指标F1 score(DICE)和IoU的得分可以看出,本公开内容的方案实现了更准确的识别效果。
[表1]
图5A-图5C分别示出了在不同的场景或光照条件下,根据本公开内容的方案与仅使用单个图像(拍摄图像)的现有技术DUIR的识别结果。从图中可以看出根据本公开内容的方案的对象识别能力明显优于DUIR。
在上述实施例中描述的方法可以由软件、硬件或者软件和硬件的组合来实现。包括在软件中的程序可以预先存储在设备的内部或外部所设置的存储介质中。作为一个示例,在执行期间,这些程序被写入随机存取存储器(RAM)并且由处理器(例如CPU)来执行,从而实现在本文中描述的各种方法和处理。
图6示出了根据程序执行本公开内容的方法的计算机硬件的示例配置框图,根据本公开内容的神经网络以及利用神经网络检测异常对象的装置可以基于该计算机硬件来实现。
如图6所示,在计算机600中,中央处理单元(CPU)601、只读存储器(ROM)602以及随机存取存储器(RAM)603通过总线604彼此连接。
输入/输出接口605进一步与总线604连接。输入/输出接口605连接有以下组件:以键盘、鼠标、麦克风等形成的输入单元606;以显示器、扬声器等形成的输出单元607;以硬盘、非易失性存储器等形成的存储单元608;以网络接口卡(诸如局域网(LAN)卡、调制解调器等)形成的通信单元609;以及驱动移动介质611的驱动器610,该移动介质611例如是磁盘、光盘、磁光盘或半导体存储器。
在具有上述结构的计算机中,CPU 601将存储在存储单元608中的程序经由输入/输出接口605和总线604加载到RAM 603中,并且执行该程序,以便执行上文中描述的方法。
要由计算机(CPU 601)执行的程序可以被记录在作为封装介质的移动介质611上,该封装介质以例如磁盘(包括软盘)、光盘(包括压缩光盘-只读存储器(CD-ROM))、数字多功能光盘(DVD)等)、磁光盘、或半导体存储器来形成。此外,要由计算机(CPU 601)执行的程序也可以经由诸如局域网、因特网、或数字卫星广播的有线或无线传输介质来提供。
当移动介质611安装在驱动器610中时,可以将程序经由输入/输出接口605安装在存储单元608中。另外,可以经由有线或无线传输介质由通信单元609来接收程序,并且将程序安装在存储单元608中。可替选地,可以将程序预先安装在ROM 602或存储单元608中。
由计算机执行的程序可以是根据本说明书中描述的顺序来执行处理的程序,或者可以是并行地执行处理或当需要时(诸如,当调用时)执行处理的程序。
本文中所描述的单元或装置仅是逻辑意义上的,并不严格对应于物理设备或实体。例如,本文所描述的每个单元的功能可能由多个物理实体来实现,或者,本文所描述的多个单元的功能可能由单个物理实体来实现。此外,在一个实施例中描述的特征、部件、元素、步骤等并不局限于该实施例,而是也可以应用于其它实施例,例如替代其它实施例中的特定特征、部件、元素、步骤等,或者与其相结合。
本发明的范围不限于在本文中描述的具体实施例。本领域普通技术人员应该理解的是,取决于设计要求和其他因素,在不偏离本发明的原理和精神的情况下,可以对本文中的实施例进行各种修改或变化。本发明的范围由所附权利要求及其等同方案来限定。
附记:
(1)一种利用神经网络检测异常对象的方法,包括:
拍摄某一场景的图像;
计算拍摄图像与参考图像之间的差图像,其中,所述差图像指示所述拍摄图像与所述参考图像之间的像素级差异;
由所述神经网络的第一编码器针对所述参考图像提取具有多个尺寸的多个特征图,由所述神经网络的第二编码器针对所述拍摄图像提取具有所述多个尺寸的多个特征图,并且由所述神经网络的第三编码器针对所述差图像提取具有所述多个尺寸的多个特征图;
将所述第一编码器、所述第二编码器和所述第三编码器各自提取的具有相同尺寸的特征图进行融合,并且将融合的特征图输入所述神经网络的解码器;
由所述解码器基于所述融合的特征图生成与所述拍摄图像尺寸相同的变化图,其中,所述变化图中的每个像素的值指示所述拍摄图像中的像素相对于所述参考图像中的对应像素是否发生语义变化;以及
基于所述变化图来识别所述场景中出现的异常对象。
(2)根据(1)所述的方法,其中,所述参考图像是预先拍摄的不包括异常对象的所述场景的图像,并且所述参考图像与所述拍摄图像配准。
(3)根据(1)所述的方法,其中,所述变化图是二值图,所述二值图中为1的像素值指示所述拍摄图像中的像素相对于所述参考图像中的对应像素发生语义变化,为0的像素值指示所述拍摄图像中的像素相对于所述参考图像中的对应像素没有发生语义变化。
(4)根据(3)所述的方法,还包括:
将用于检测一种或多种已知对象的一个或多个检测器应用于所述拍摄图像,以检测所述拍摄图像中的已知对象;
基于所述检测的结果,在所述变化图中将对应于所检测的已知对象的像素的值设置为0;以及
基于更新后的变化图来识别所述场景中出现的异常对象。
(5)根据(1)所述的方法,还包括:
由所述第一编码器、所述第二编码器和所述第三编码器分别针对相应的图像提取具有N个尺寸的N个特征图,其中,所述N个特征图的尺寸递减,N为大于2的自然数;
将由所述第一编码器、所述第二编码器和所述第三编码器提取的具有相同尺寸的特征图进行融合,并且将所得到的N个融合特征图输入解码器;
由所述解码器基于接收的N个融合特征图执行N-1次上采样,
其中,在第一次上采样中,所述解码器对接收的尺寸最小的第N个融合特征图执行上采样;
在第二次至第N-1次上采样中的每一次上采样中,所述解码器对通过拼接以下特征图而已经生成的特征图执行上采样:由前一次上采样得到的先前特征图,以及与所述先前特征图的尺寸相同的融合特征图。
(6)根据(1)所述的方法,还包括:
利用训练图像集基于交叉熵损失函数来训练所述神经网络,其中所述训练图像集包括彼此配准的拍摄图像训练样本和参考图像训练样本,以及相应的已标记的变化图;以及
使用经训练的神经网络来检测所述异常对象。
(7)根据(1)所述的方法,其中,所述场景是需要被监测的地点或区域。
(8)根据(1)所述的方法,其中,所述场景包括道路、航道、建筑物、庭院、城市、农田中的至少一个。
(9)根据(1)所述的方法,其中,所述参考图像和所述拍摄图像是由固定的摄像设备在不同时间拍摄的所述场景的图像,或者
所述参考图像和所述拍摄图像是在不同时间拍摄的遥感图像。
(10)一种利用神经网络检测异常对象的装置,包括:
存储有计算机程序的存储器;以及
处理器,所述处理器被配置为通过执行所述计算机程序而执行以下操作:
计算针对某一场景拍摄的图像与参考图像之间的差图像,其中,所述差图像指示所述拍摄图像与所述参考图像之间的像素级差异;
使所述神经网络的第一编码器针对所述参考图像提取具有多个尺寸的多个特征图;
使所述神经网络的第二编码器针对所述拍摄图像提取具有所述多个尺寸的多个特征图;
使所述神经网络的第三编码器针对所述差图像提取具有所述多个尺寸的多个特征图;
将所述第一编码器、所述第二编码器和所述第三编码器各自提取的具有相同尺寸的特征图进行融合,并且将融合的特征图输入所述神经网络的解码器;
使所述解码器基于所述融合的特征图生成与所述拍摄图像尺寸相同的变化图,其中,所述变化图中的每个像素的值指示所述拍摄图像中的像素相对于所述参考图像中的对应像素是否发生语义变化;以及
基于所述变化图来识别所述场景中出现的异常对象。
(11)根据(10)所述的装置,其中,所述参考图像是预先拍摄的不包括异常对象的所述场景的图像,并且所述参考图像与所述拍摄图像配准。
(12)根据(10)所述的装置,其中,所述变化图是二值图,所述二值图中为1的像素值指示所述拍摄图像中的像素相对于所述参考图像中的对应像素发生语义变化,为0的像素值指示所述拍摄图像中的像素相对于所述参考图像中的对应像素没有发生语义变化。
(13)根据(12)所述的装置,所述处理器还被配置为:
将用于检测一种或多种已知对象的一个或多个检测器应用于所述拍摄图像,以检测所述拍摄图像中的已知对象;
基于所述检测的结果,在所述变化图中将对应于所检测的已知对象的像素的值设置为0;以及
基于更新后的变化图来识别所述场景中出现的异常对象。
(14)根据(10)所述的装置,所述处理器还被配置为:
使所述第一编码器、所述第二编码器和所述第三编码器分别针对相应的图像提取具有N个尺寸的N个特征图,其中,所述N个特征图的尺寸递减,N为大于2的自然数;
将由所述第一编码器、所述第二编码器和所述第三编码器提取的具有相同尺寸的特征图进行融合,并且将所得到的N个融合特征图输入解码器;
使所述解码器基于接收的N个融合特征图执行N-1次上采样,
其中,在第一次上采样中,所述解码器对接收的尺寸最小的第N个融合特征图执行上采样;
在第二次至第N-1次上采样中的每一次上采样中,所述解码器对通过拼接以下特征图而已经生成的特征图执行上采样:由前一次上采样得到的先前特征图,以及与所述先前特征图的尺寸相同的融合特征图。
(15)根据(10)所述的装置,其中,利用训练图像集基于交叉熵损失函数来训练所述神经网络,其中所述训练图像集包括彼此配准的拍摄图像训练样本和参考图像训练样本,以及相应的已标记的变化图,
所述处理器还被配置为使用经训练的神经网络来检测所述异常对象。
(16)一种存储有计算机程序的存储介质,所述计算机程序在被计算机执行时使得所述计算机执行根据(1)-(9)中任一项所述的用于检测异常对象的方法。

Claims (10)

1.一种利用神经网络检测异常对象的方法,包括:
拍摄某一场景的图像;
计算拍摄图像与参考图像之间的差图像,其中,所述差图像指示所述拍摄图像与所述参考图像之间的像素级差异;
由所述神经网络的第一编码器针对所述参考图像提取具有多个尺寸的多个特征图,由所述神经网络的第二编码器针对所述拍摄图像提取具有所述多个尺寸的多个特征图,并且由所述神经网络的第三编码器针对所述差图像提取具有所述多个尺寸的多个特征图;
将所述第一编码器、所述第二编码器和所述第三编码器各自提取的具有相同尺寸的特征图进行融合,并且将融合的特征图输入所述神经网络的解码器;
由所述解码器基于所述融合的特征图生成与所述拍摄图像尺寸相同的变化图,其中,所述变化图中的每个像素的值指示所述拍摄图像中的像素相对于所述参考图像中的对应像素是否发生语义变化;以及
基于所述变化图来识别所述场景中出现的异常对象。
2.根据权利要求1所述的方法,其中,所述参考图像是预先拍摄的不包括异常对象的所述场景的图像,并且所述参考图像与所述拍摄图像配准。
3.根据权利要求1所述的方法,其中,所述变化图是二值图,所述二值图中为1的像素值指示所述拍摄图像中的像素相对于所述参考图像中的对应像素发生语义变化,为0的像素值指示所述拍摄图像中的像素相对于所述参考图像中的对应像素没有发生语义变化。
4.根据权利要求3所述的方法,还包括:
将用于检测一种或多种已知对象的一个或多个检测器应用于所述拍摄图像,以检测所述拍摄图像中的已知对象;
基于所述检测的结果,在所述变化图中将对应于所检测的已知对象的像素的值设置为0;以及
基于更新后的变化图来识别所述场景中出现的异常对象。
5.根据权利要求1所述的方法,还包括:
由所述第一编码器、所述第二编码器和所述第三编码器分别针对相应的图像提取具有N个尺寸的N个特征图,其中,所述N个特征图的尺寸递减,N为大于2的自然数;
将由所述第一编码器、所述第二编码器和所述第三编码器提取的具有相同尺寸的特征图进行融合,并且将所得到的N个融合特征图输入解码器;
由所述解码器基于接收的N个融合特征图执行N-1次上采样,
其中,在第一次上采样中,所述解码器对接收的尺寸最小的第N个融合特征图执行上采样;
在第二次至第N-1次上采样中的每一次上采样中,所述解码器对通过拼接以下特征图而已经生成的特征图执行上采样:由前一次上采样得到的先前特征图,以及与所述先前特征图的尺寸相同的融合特征图。
6.根据权利要求1所述的方法,还包括:
利用训练图像集基于交叉熵损失函数来训练所述神经网络,其中所述训练图像集包括彼此配准的拍摄图像训练样本和参考图像训练样本,以及相应的已标记的变化图;以及
使用经训练的神经网络来检测所述异常对象。
7.根据权利要求1所述的方法,其中,所述场景是需要被监测的地点或区域。
8.根据权利要求1所述的方法,其中,所述参考图像和所述拍摄图像是由固定的摄像设备在不同时间拍摄的所述场景的图像,或者
所述参考图像和所述拍摄图像是在不同时间拍摄的遥感图像。
9.一种利用神经网络检测异常对象的装置,包括:
存储有计算机程序的存储器;以及
处理器,所述处理器被配置为通过执行所述计算机程序而执行以下操作:
计算针对某一场景拍摄的图像与参考图像之间的差图像,其中,所述差图像指示所述拍摄图像与所述参考图像之间的像素级差异;
使所述神经网络的第一编码器针对所述参考图像提取具有多个尺寸的多个特征图;
使所述神经网络的第二编码器针对所述拍摄图像提取具有所述多个尺寸的多个特征图;
使所述神经网络的第三编码器针对所述差图像提取具有所述多个尺寸的多个特征图;
将所述第一编码器、所述第二编码器和所述第三编码器各自提取的具有相同尺寸的特征图进行融合,并且将融合的特征图输入所述神经网络的解码器;
使所述解码器基于所述融合的特征图生成与所述拍摄图像尺寸相同的变化图,其中,所述变化图中的每个像素的值指示所述拍摄图像中的像素相对于所述参考图像中的对应像素是否发生语义变化;以及
基于所述变化图来识别所述场景中出现的异常对象。
10.一种存储有计算机程序的存储介质,所述计算机程序在被计算机执行时使得所述计算机执行根据权利要求1-8中任一项所述的用于检测异常对象的方法。
CN202210332651.5A 2022-03-31 2022-03-31 检测异常对象的方法、装置和存储介质 Pending CN116958561A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210332651.5A CN116958561A (zh) 2022-03-31 2022-03-31 检测异常对象的方法、装置和存储介质
JP2023043981A JP2023152836A (ja) 2022-03-31 2023-03-20 異常対象を検出する方法、装置及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210332651.5A CN116958561A (zh) 2022-03-31 2022-03-31 检测异常对象的方法、装置和存储介质

Publications (1)

Publication Number Publication Date
CN116958561A true CN116958561A (zh) 2023-10-27

Family

ID=88349619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210332651.5A Pending CN116958561A (zh) 2022-03-31 2022-03-31 检测异常对象的方法、装置和存储介质

Country Status (2)

Country Link
JP (1) JP2023152836A (zh)
CN (1) CN116958561A (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102733532B1 (ko) * 2023-12-26 2024-11-25 주식회사 인터엑스 이미지 내 불량 탐지 시스템 및 방법
CN117853923B (zh) * 2024-01-17 2024-10-18 国网经济技术研究院有限公司 一种电网电力基础设施安全性评估分析方法以及装置
CN118212696B (zh) * 2024-05-17 2024-10-22 煤炭科学研究总院有限公司 一种融合图像超分辨率重建的运动目标异常检测方法
CN119169015A (zh) * 2024-11-21 2024-12-20 浙江大华技术股份有限公司 一种破损伸缩缝的检测方法、装置及存储介质
CN120339261B (zh) * 2025-04-28 2025-10-28 徐州大泰机电科技有限公司 基于计算机视觉的车架质量检测方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017112466A (ja) * 2015-12-15 2017-06-22 日本電信電話株式会社 画像差異検出方法、画像差異検出装置及び画像差異検出プログラム
CN110168710A (zh) * 2016-12-07 2019-08-23 科磊股份有限公司 用于以卷积神经网络为基础的缺陷检验的数据扩增
US20210065354A1 (en) * 2019-08-30 2021-03-04 Tata Consultancy Services Limited Method and system for semantic change detection using deep neural network feature correlation
KR20210141060A (ko) * 2020-05-15 2021-11-23 에스케이하이닉스 주식회사 머신러닝 기반의 이미지 이상 탐지 시스템
CN114022793A (zh) * 2021-10-28 2022-02-08 天津大学 一种基于孪生网络的光学遥感图像变化检测方法
US20220358334A1 (en) * 2021-05-10 2022-11-10 Qingdao Technological University Assembly body change detection method, device and medium based on attention mechanism

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017112466A (ja) * 2015-12-15 2017-06-22 日本電信電話株式会社 画像差異検出方法、画像差異検出装置及び画像差異検出プログラム
CN110168710A (zh) * 2016-12-07 2019-08-23 科磊股份有限公司 用于以卷积神经网络为基础的缺陷检验的数据扩增
US20210065354A1 (en) * 2019-08-30 2021-03-04 Tata Consultancy Services Limited Method and system for semantic change detection using deep neural network feature correlation
KR20210141060A (ko) * 2020-05-15 2021-11-23 에스케이하이닉스 주식회사 머신러닝 기반의 이미지 이상 탐지 시스템
US20220358334A1 (en) * 2021-05-10 2022-11-10 Qingdao Technological University Assembly body change detection method, device and medium based on attention mechanism
CN114022793A (zh) * 2021-10-28 2022-02-08 天津大学 一种基于孪生网络的光学遥感图像变化检测方法

Also Published As

Publication number Publication date
JP2023152836A (ja) 2023-10-17

Similar Documents

Publication Publication Date Title
Xu et al. Car detection from low‐altitude UAV imagery with the faster R‐CNN
CN116958561A (zh) 检测异常对象的方法、装置和存储介质
US11620527B2 (en) Domain adaption learning system
Shashidhar et al. Vehicle number plate detection and recognition using yolo-v3 and ocr method
Wan et al. A novel neural network model for traffic sign detection and recognition under extreme conditions
Zhu et al. Advancing video anomaly detection: A concise review and a new dataset
US8509478B2 (en) Detection of objects in digital images
CN109460787B (zh) 入侵检测模型建立方法、装置及数据处理设备
WO2021147055A1 (en) Systems and methods for video anomaly detection using multi-scale image frame prediction network
CN110533950A (zh) 车位使用状况的检测方法、装置、电子设备及存储介质
Pirgazi et al. An End‐to‐End Deep Learning Approach for Plate Recognition in Intelligent Transportation Systems
CN109993032B (zh) 一种共享单车目标识别方法、装置及相机
CN117115412B (zh) 一种基于加权得分标签分配的小目标检测方法
Isa et al. Real-time traffic sign detection and recognition using Raspberry Pi
Khosravian et al. Multi‐domain autonomous driving dataset: Towards enhancing the generalization of the convolutional neural networks in new environments
CN114596548A (zh) 目标检测方法、装置、计算机设备及计算机可读存储介质
CN116071557A (zh) 一种长尾目标检测方法、计算机可读存储介质及驾驶设备
Rajaji et al. Detection of lane and speed breaker warning system for autonomous vehicles using machine learning algorithm
Hasan Yusuf et al. Real-time car parking detection with deep learning in different lighting scenarios
Haque et al. Automatic bangla license plate recognition system for low-resolution images
CN115063761B (zh) 车道线检测方法、装置、设备及存储介质
US11423262B2 (en) Automatically filtering out objects based on user preferences
Satti et al. Recognizing the Indian Cautionary Traffic Signs using GAN, Improved Mask R‐CNN, and Grab Cut
Zhang et al. Interactive spatio-temporal feature learning network for video foreground detection
Wu et al. A Pavement Distress Detection Method Based on Yolov5 Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination