CN116977931A

CN116977931A - 一种基于深度学习的高空抛物识别方法

Info

Publication number: CN116977931A
Application number: CN202310957874.5A
Authority: CN
Inventors: 刘成刚; 请求不公布姓名
Original assignee: Shenzhen Xinghe Zhishan Technology Co ltd
Current assignee: Shenzhen Xinghe Zhishan Technology Co ltd
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2023-10-31

Abstract

本发明公开了一种基于深度学习的高空抛物识别方法，涉及人工智能技术领域；本发明提供了一种基于深度学习的方法可以通过训练神经网络来自动学习特征，而无需手动设计特征提取器。神经网络可以根据输入的图像数据自动发现和提取抛物体的相关特征，具有更强的表达能力，并且在大规模数据集上具有更好的泛化能力；通过基于区域提议网络的目标检测模型Faster R‑CNN构建高空抛物识别模型，通过使用全卷积网络来生成候选区域，随之对这些候选区域进行分类和边界框回归；使得Faster R‑CNN具有较高的准确性，能够在复杂的高空抛物识别任务中较为可靠地定位和识别目标。

Description

一种基于深度学习的高空抛物识别方法

技术领域

本发明涉及人工智能技术领域，具体为一种基于深度学习的高空抛物识别方法。

背景技术

随着现代建筑水平的不断提升，城市中的大厦、居民楼高度愈发随之拔高，随之而来的高空抛物问题，严重影响了建筑周边行人的生命安全，由于高空抛物行为发生时间短，突发性强，导致该行为一直难以监测和遏制。

在高空抛物识别中，传统的方法往往依赖于手工设计的特征提取器和分类器，然而，手工设计的特征通常无法充分表达复杂的抛物体形态和动态变化，限制了识别的准确性和泛化能力，这些方法对于不同场景或不同抛物体的变化不具备良好的适应性，当遇到新的抛物体类型或形状时，传统方法需要重新设计和调整特征提取器，增加了开发和部署的困难。

为此，本发明提供了一种基于深度学习的方法可以通过训练神经网络来自动学习特征，而无需手动设计特征提取器。神经网络可以根据输入的图像数据自动发现和提取抛物体的相关特征，具有更强的表达能力，并且在大规模数据集上具有更好的泛化能力。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于深度学习的高空抛物识别方法。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：一种基于深度学习的高空抛物识别方法，包括以下步骤：

基于数据收集模块收集大量的高空抛物的图像或视频数据，包括实际的抛物实例以及模拟生成的数据；具体内容如下：

安排在不同时间和地点进行观测，记录实际的高空抛物运动，使用高速摄像机或无人机设备，捕捉抛物运动的视频及图像；从不同角度记录高空抛物，观察其运动轨迹和形状的变化；

对收集到的图像或视频进行标记和注释，标记抛物物体的位置、速度和轨迹；

在实际抛物数据不足或难以收集的情况下，使用物理引擎或仿真软件来生成高空抛物的模拟数据，模拟不同物体、不同速度和不同环境下的抛物运动；

将收集到的数据集划分为训练集、验证集和测试集，训练集用于模型的训练，验证集用于调整模型超参数和监控模型性能，测试集用于评估模型的泛化能力；

确保数据集中每个类别(不同类型的抛物)都有足够数量的样本，并尽量保持类别之间的平衡，以避免某个类别的数据过多而其他类别数据过少导致模型偏向某个类别；

进一步的，通过数据增强模块对实际抛物数据和模拟生成的数据进行数据增强操作，包括旋转、裁切、缩放和改变亮度/对比度，具体包括以下步骤：

根据高空抛物的位置和大小，对收集到的图像进行裁剪，将抛物物体从背景中分离出来；将裁剪后的图像按照统一的尺寸进行缩放操作，使不同尺寸的抛物物体具有相似的大小；随机改变图像的亮度和对比度，模拟不同光照条件下的抛物运动，提高模型对于不同亮度和对比度变化的适应能力；

进一步的，筛选高质量图片素材用作训练集，具体内容如下：

通过图像清晰度评估方法，包括图像锐化算法及图像质量评估指标，获取图像清晰度评分、边缘锐利度及分辨率数据，生成图片清晰度参数QX；评估图像的对比度，使用直方图均衡化及对比度增强方法对数据集中的图像进行对比度值评估，获取图片对比度参数DB；使用直方图均衡化及自适应亮度调整方法，评估图像的亮度水平，获取图像亮度值LD；通过提取图像中的物体边缘特征，使用边缘检测算法包括Canny算法及Sobel算法，获取图像物体边缘特征值TZ；评估图像中不同物体的区分度，使用局部变二值法及颜色检测方法，获取图像区分度值QF；

根据图片清晰度参数QX对训练集中的图像数据进行一轮筛选，过滤清晰度低，影响训练集整体图像质量的数据，计算公式如下：

QX≥D？use:F

式中，参数意义为：D为训练集图像清晰度最低阈值；

当公式输出“use”时，表明当前图像清晰度值高于D，该图像质量合格，可用于训练集；当公式输出“F”，表明当前图像清晰度值低于D，该图像质量不合格，直接做过滤处理；

进一步的，根据图片对比度参数DB、亮度值LD、物体边缘特征值TZ、区分度值QF进行加权计算，生成用于衡量图片整体质量的参数S，对训练集中的图像数据进行二轮筛选，计算公式如下：

式中，α、β、γ、δ为权重系数，具体的权重系数值需要根据具体情况进行调整，可以通过试验和交叉验证方法来确定最佳的权重组合或根据算法自动化选择权重值；N为一轮迭代中训练集中图片的数量总和；

进一步的，使用深度学习的网络结构Faster R-CNN对预处理后的数据进行训练，使模型能够准确地识别出图像中的抛物，具体内容如下：

首先以特征图feature map的左上角点为基准产生9个anchor，三种尺度，每个尺度再对应三种比例；接着，将特征图左上角的9个anchors乘上原图的缩放比例base_size，经过4个池化层后的16倍；锚点由特征图中的(0.5,0.5)变为了原图上的(8,8)，原图上的9个anchors的w和h也变为16倍；以原图左上角的anchors为基准，每隔base_size个像素，画9个anchors，经过迭代运算之后，在原图上生成20000个anchors；

进一步的，使用AnchorTargetCreator函数对基于特征图feature map生成的20000个anchors进行标注以用于训练；

对Feature Map进行3×3卷积操作，而后分为两个分支，每一分支都先进行1×1卷积操作，压缩channel；第一个分支的通道数压缩成9×2，9代表每一个锚点的9个anchors，2代表每一个anchor是前景或后景的概率；第二个分支的通道数压缩成9×4，9代表每一个锚点的9个anchors，4代表每一个anchor的4个位置参数预测值；每一个min-batch，只对128个负样本和128个正样本计算分类损失和回归损失，损失函数如下：

式中，参数意义为：代表了256个筛选出的Anchors的分类损失，p_i为每一个Anchor的类别真值，为每一个Anchor的预测类别；代表了回归损失；

进一步的，基于RPN模型训练生成的Region Proposals，使用相同的预训练模型初始化共享卷积，结合RPN得到的Proposals训练RCNN网络；

使用训练好的共享卷积和RPN固定住共享卷积层，继续对RCNN进行训练微调；

进一步的，通过目标分类网络对每个候选框进行分类和边界框回归；使用分类网络确定候选框中是否存在目标物体，边界框回归用于精确定位目标物体的位置；

最后，在所有检测到的候选框中，使用非极大值抑制(NMS)算法来剔除高度重叠的检测框，只保留得分最高的检测框，根据NMS结果，基于检测框的边界框回归参数，将最终的检测框绘制在原始图像上。

(三)有益效果

本发明提供了一种基于深度学习的高空抛物识别方法，具备以下有益效果：

1、通过两轮筛选，包括第一轮根据图片清晰度参数进行筛选，和第二轮基于图片对比度参数DB、亮度值LD、物体边缘特征值TZ以及区分度值QF生成用于衡量图片整体质量的参数S，对图片数据集进行更深一步的过滤，筛选出高质量图片素材用作训练集，更全面地刻画图像的质量，只选择质量较高的图像作为输入，更加准确地评估图像质量，排除质量较差的图像，提高系统的稳定性和准确性，提高高空抛物识别的效果。

2、通过基于区域提议网络的目标检测模型Faster R-CNN构建高空抛物识别模型，通过使用全卷积网络来生成候选区域，随之对这些候选区域进行分类和边界框回归；使得Faster R-CNN具有较高的准确性，能够在复杂的高空抛物识别任务中较为可靠地定位和识别目标。

附图说明

图1为本发明高空抛物识别数据流向及结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参考图1所示，本发明提供一种基于深度学习的高空抛物识别方法，包括数据收集模块、数据增强模块、数据筛选模块、模型训练模块、模型生成模块；所述一种基于深度学习的高空抛物识别方法在运行时，具体包括以下步骤：

步骤一、基于数据收集模块收集大量的高空抛物的图像或视频数据，包括实际的抛物实例以及模拟生成的数据；具体内容如下：

步骤101：收集实际抛物数据：安排在不同时间和地点进行观测，记录实际的高空抛物运动，使用高速摄像机或无人机设备，捕捉抛物运动的视频及图像；从不同角度记录高空抛物，观察其运动轨迹和形状的变化，增加训练数据的多样性和泛化能力；

步骤102：标记和注释：对收集到的图像或视频进行标记和注释，标记抛物物体的位置、速度和轨迹，为模型提供准确的标签，用于监督学习；

步骤103：收集模拟生成的数据：在实际抛物数据不足或难以收集的情况下，使用物理引擎或仿真软件来生成高空抛物的模拟数据，模拟不同物体、不同速度和不同环境下的抛物运动；

步骤104：数据集划分：将收集到的数据集划分为训练集、验证集和测试集，训练集用于模型的训练，验证集用于调整模型超参数和监控模型性能，测试集用于评估模型的泛化能力；

步骤105：数据集平衡：确保数据集中每个类别(不同类型的抛物)都有足够数量的样本，并尽量保持类别之间的平衡，以避免某个类别的数据过多而其他类别数据过少导致模型偏向某个类别；

通过以上步骤，可以收集大量的高空抛物的图像或视频数据，并为基于深度学习的高空抛物识别方法提供丰富的训练集。

步骤二、通过数据增强模块对实际抛物数据和模拟生成的数据进行数据增强操作，包括旋转、裁切、缩放和改变亮度/对比度，具体内容如下：

步骤201：图像裁剪：根据高空抛物的位置和大小，对收集到的图像进行裁剪，将抛物物体从背景中分离出来，减少背景干扰，并提供更清晰的目标物体；

步骤202：图像缩放和旋转：将裁剪后的图像按照统一的尺寸进行缩放操作，使不同尺寸的抛物物体具有相似的大小，并且方便后续的处理和训练；模拟高空抛物的旋转过程，对图像进行随机旋转操作，增加数据集的多样性；

步骤203：改变亮度/对比度：随机改变图像的亮度和对比度，模拟不同光照条件下的抛物运动，提高模型对于不同亮度和对比度变化的适应能力；

通过对数据进行预处理和增强操作，可以增强数据集的多样性和泛化能力，提高模型对于不同抛物物体特性的识别和分类能力，使模型对旋转过程的识别更具鲁棒性；

步骤三、筛选高质量图片素材用作训练集，具体内容如下：

步骤301：通过图像清晰度评估方法，包括图像锐化算法及图像质量评估指标，获取图像清晰度评分、边缘锐利度及分辨率数据，生成图片清晰度参数QX；评估图像的对比度，使用直方图均衡化及对比度增强方法对数据集中的图像进行对比度值评估，获取图片对比度参数DB；使用直方图均衡化及自适应亮度调整方法，评估图像的亮度水平，获取图像亮度值LD；通过提取图像中的物体边缘特征，使用边缘检测算法包括Canny算法及Sobel算法，获取图像物体边缘特征值TZ；评估图像中不同物体的区分度，使用局部变二值法及颜色检测方法，获取图像区分度值QF；

步骤302：根据图片清晰度参数QX对训练集中的图像数据进行一轮筛选，过滤清晰度低，影响训练集整体图像质量的数据，计算公式如下：

QX≥D？use:F

式中，参数意义为：D为训练集图像清晰度最低阈值；

步骤303：根据图片对比度参数DB、亮度值LD、物体边缘特征值TZ、区分度值QF进行加权计算，生成用于衡量图片整体质量的参数S，对训练集中的图像数据进行二轮筛选，计算公式如下：

通过两轮对训练集中图像的筛选，综合考虑对比度、亮度、边缘特征和区分度等多个因素更全面地刻画图像的质量，只选择质量较高的图像作为输入；通过调节权重系数适应不同的情况，提高算法的灵活性，更加准确地评估图像质量，排除质量较差的图像，提高系统的稳定性和准确性，提高高空抛物识别的效果。

步骤四、模型生成及训练：使用深度学习的网络结构Faster R-CNN对预处理后的数据进行训练，使模型能够准确地识别出图像中的抛物，具体内容如下：

步骤401：生成anchors，具体内容如下：

步骤402：使用AnchorTargetCreator函数对步骤401生成的20000个anchors进行标注以用于训练，具体内容如下：

针对于label的标注，首先剔除掉超过原图边界的anchors，剩余将近15000个；接着，计算每一个anchor与哪个bbox的iou最大以及这个iou值，IOU＞0.7的anchor为pos_anchor，IOU＜0.3的anchor为neg_anchor；同时，计算每个bbox与哪个anchor的iou最大(矩阵中行最大和列最大的区别)，将每个bbox对应的最大IOU的anchors设为pos_anchor；最后在pos和neg中各随机选128个，即128个正样本和128个负样本，将128个正样本的label设置为1，将128个负样本的label设置为0，剩下的(20000-256)个anchors的labels都设为0；针对4个回归框的参数标注，首先对超框的都设为(0，0，0，0)，框内的近乎15000个anchors的4个参数就是它们与最大IOU对应的bbox的实际偏移量；

步骤403：训练RPN：

首先对Feature Map进行3×3卷积操作，而后分为两个分支，每一分支都先进行1×1卷积操作，压缩channel；第一个分支的通道数压缩成9×2，9代表每一个锚点的9个anchors，2代表每一个anchor是前景或后景的概率；第二个分支的通道数压缩成9×4，9代表每一个锚点的9个anchors，4代表每一个anchor的4个位置参数预测值；每一个min-batch，只对128个负样本和128个正样本计算分类损失和回归损失，损失函数如下：

步骤404：训练Fast R-CNN，具体内容如下：

基于RPN模型训练生成的Region Proposals，使用相同的预训练模型初始化共享卷积，此处是初始化一个新的与RPN模型结构相同的共享卷积网络，而不是RPN模型中训练得到的，锁住第1步训练好的RPN权重，结合RPN得到的Proposals训练RCNN网络；进一步的，使用训练好的共享卷积和RPN固定住共享卷积层，继续对RCNN进行训练微调；

步骤405：候选框分类和边界框回归：

通过目标分类网络对每个候选框进行分类和边界框回归；使用分类网络确定候选框中是否存在目标物体，边界框回归用于精确定位目标物体的位置；

步骤406：基于NMS画出最终检测框，具体内容如下：

在所有检测到的候选框中，使用非极大值抑制(NMS)算法来剔除高度重叠的检测框，只保留得分最高的检测框，根据NMS结果，基于检测框的边界框回归参数，将最终的检测框绘制在原始图像上；

通过以上流程，基于Faster R-CNN模型经过NMS后，得到最终的检测框，标识出图像中的高空抛物目标位置。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.基于深度学习的高空抛物识别方法，其特征在于，包括以下步骤：

使用数据收集模块收集大量的高空抛物的图像或视频数据，包括实际的抛物实例以及模拟生成的数据；

基于数据增强模块对实际抛物数据和模拟生成的数据进行数据增强操作，包括旋转、裁切、缩放和改变亮度/对比度；

通过数据筛选模块筛选高质量图片素材用作训练集；

使用模型生成及训练模块对Faster R-CNN进行训练，并生成最终的高空抛物识别模型。

2.根据权利要求1所述的基于深度学习的高空抛物识别方法，其特征在于：

在不同时间和地点进行观测，记录实际的高空抛物运动，捕捉抛物运动的视频及图像，获取其运动轨迹和形状的变化；对收集到的图像或视频进行标记和注释，标记抛物物体的位置、速度和轨迹；

在实际抛物数据不足或难以收集的条件下，使用物理引擎或仿真软件来生成高空抛物的模拟数据；使用收集到数据，在训练验证及测试后，获取模型。

3.根据权利要求2所述的基于深度学习的高空抛物识别方法，其特征在于：

对收集到的图像进行裁剪，将裁剪后的图像按照统一的尺寸进行缩放；

对图像进行随机旋转操作，并随机改变图像的亮度和对比度，模拟不同光照条件下的抛物运动。

4.根据权利要求1所述的基于深度学习的高空抛物识别方法，其特征在于：

通过图像清晰度评估，包括图像锐化算法及图像质量评估指标，获取图像清晰度评分、边缘锐利度及分辨率数据，生成图片清晰度参数QX；

评估图像的对比度，使用直方图均衡化及对比度增强方法对数据集中的图像进行对比度值评估，获取图片对比度参数DB；

使用直方图均衡化及自适应亮度调整方法，评估图像的亮度水平，获取图像亮度值LD；

通过提取图像中的物体边缘特征，使用边缘检测算法包括Canny算法及Sobel算法，获取图像物体边缘特征值TZ；

评估图像中不同物体的区分度，使用局部变二值法及颜色检测方法，获取图像区分度值QF。

5.根据权利要求4所述的基于深度学习的高空抛物识别方法，其特征在于：

QX≥D？use:F

式中，参数意义为：D为训练集图像清晰度最低阈值；

当公式输出“use”时，表明当前图像清晰度值高于D，该图像质量合格，可用于训练集；当公式输出“F”，表明当前图像清晰度值低于D，该图像质量不合格，做过滤处理。

6.根据权利要求5所述的基于深度学习的高空抛物识别方法，其特征在于：

根据图片对比度参数DB、亮度值LD、物体边缘特征值TZ、区分度值QF进行加权计算，生成用于衡量图片整体质量的参数S，对训练集中的图像数据进行二轮筛选，计算公式如下：

式中，α、β、γ、δ为权重系数，具体的权重系数值需要根据具体情况进行调整，可以通过试验和交叉验证方法来确定最佳的权重组合或根据算法自动化选择权重值；N为一轮迭代中训练集中图片的数量总和。

7.根据权利要求1所述的基于深度学习的高空抛物识别方法，其特征在于：

以特征图feature map的左上角点为基准产生9个anchor、三种尺度，每个尺度对应三种比例；

将特征图左上角的9个anchors乘上原图的缩放比例base_size，经过4个池化层后的16倍；锚点由特征图中的(0.5,0.5)变为了原图上的(8,8)，原图上的9个anchors的w和h变为16倍；

以原图左上角的anchors为基准，每隔base_size个像素，画9个anchors，经过迭代运算之后，在原图上生成20000个anchors。

8.根据权利要求7所述的基于深度学习的高空抛物识别方法，其特征在于：

每一个min-batch只对128个负样本和128个正样本计算分类损失和回归损失，损失函数如下：

式中，参数意义为：代表了256个筛选出的Anchors的分类损失，p_i为每一个Anchor的类别真值，为每一个Anchor的预测类别；代表了回归损失。

9.根据权利要求8所述的基于深度学习的高空抛物识别方法，其特征在于：

基于RPN模型训练生成的Region Proposals，使用相同的预训练模型初始化共享卷积，锁住训练好的RPN权重，结合RPN得到的Proposals训练RCNN网络；

使用训练好的共享卷积和RPN固定住共享卷积层，对RCNN进行训练微调。

10.根据权利要求8所述的基于深度学习的高空抛物识别方法，其特征在于：

通过目标分类网络对每个候选框进行分类和边界框回归，使用分类网络确定候选框中是否存在目标物体，边界框回归用于精确定位目标物体的位置；

在所有检测到的候选框中，使用非极大值抑制(NMS)算法来剔除高度重叠的检测框，只保留得分最高的检测框，根据NMS结果，基于检测框的边界框回归参数，将最终的检测框绘制在原始图像上。