CN118898869B

CN118898869B - 一种暴力行为检测方法、电子设备及存储介质

Info

Publication number: CN118898869B
Application number: CN202410943948.4A
Authority: CN
Inventors: 阮雅端; 赵民权; 王涣宇; 吴玉英
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2024-07-15
Filing date: 2024-07-15
Publication date: 2025-11-11
Anticipated expiration: 2044-07-15
Also published as: CN118898869A

Abstract

一种暴力行为检测方法、电子设备及存储介质，融合了实时目标检测和实时姿态检测，通过目标检测划定有疑似违规行为的感兴趣区域，然后在该区域中进行放大的二次姿态检测，确定区域内人数和姿态，以此作为判断该区域是否存在暴力行为的判断依据。本发明解决了现有技术仅依赖目标检测的方法在实际场景中因缺少数据训练和场景光线影响等，导致判断行为精度不足的问题；以及画面尺寸过大，人物在画面占比较小时姿态检测不精准的问题。本发明方法兼顾实时性、准确性，大幅降低误判率，对安保领域有重要意义。

Description

一种暴力行为检测方法、电子设备及存储介质

技术领域

本发明属于计算机视觉技术领域，适用于各种需要监测人员安全的场合，涉及对画面中人员是否存在暴力行为的判断，基于深度神经网络的斗殴行为检测，以及对人体姿态的检测和挖掘，为一种基于目标检测和姿态检测的斗殴行为检测方法。

背景技术

暴力行为鉴定与识别是目前研究的热点之一，通过视频监控发现有人正在进行暴力行为，可以及时采取相应措施，避免出现伤亡事件。然而，目前的暴力行为判别算法仍存在一些问题，如果仅使用一般目标检测，则会产生较大误判率，如两人靠在一起交谈、擦肩而过或者抱着杂物等正常行为也会误判为斗殴；如果仅依靠姿态算法，则因为斗殴时姿态模糊和输入图片背景占比过大导致信噪比过低，会有漏判和大量置信度偏低的关键点，另一方面许多姿势与搏击姿态可能一定的相似之处，如两人传递物品，这会导致误判；如果依靠比较复杂的大模型进行检测则会有因为计算量太大，实时性不能达到预期的问题。另外，暴力行为是一个动态时序性行为，单纯依靠每一帧的姿态检测也很容易出现误判，而利用光流法等计算人物的连续动作，其对光亮度高度敏感，斗殴时目标运动速度较快，不易于使用，也不利于对普通监控摄像头的部署。

同时，应用场景复杂，缺少相应场景下的数据集也为普通的单阶段检测带来了挑战。

发明内容

本发明要解决的问题是，现有技术对人物特定行为的检测方法，单依靠目标检测的暴力行为检测不精确，单依靠姿态检测的暴力行为检测既不精确还会存在漏检；另外人物动作是动态的，利用光流法等运动信息计算方法计算量大，不能满足轻量化部署需求。

本发明的技术方案为：一种暴力行为检测方法，基于目标检测和姿态检测，包括以下步骤：

Step1：构建斗殴行为数据集和人体姿态数据集；

Step2：使用斗殴行为数据集训练引入空间注意力机制的YOLOv7模型，得到暴力行为的感兴趣目标检测模型；

Step3：使用人体姿态数据集训练YOLOv8姿态检测网络，得到人体姿态模型；

Step4：根据使用场景，设置斗殴计数、斗殴计数阈值及斗殴姿态特征样本，并初始化斗殴计数为0；

Step5：读取视频，视频帧输入Step2中的感兴趣目标检测模型，检测输出可能存在暴力行为的区域；

Step6：使用Step3中得到的人体姿态模型进行区域内的人体姿态检测，得到区域中人的数量和每个人的姿态点；

Step7：根据区域内的人数判断，若小于两人则丢弃该检测结果，继续检测下一帧，若大于两人则计算每个人在区域内的像素面积；

Step8：计算区域总像素面积，计算每个人物在该区域的大小占比，若当前人物在画面中占比小于0.3，则将当前人物视为远景，丢弃当前人物的数据，若占比大于0.3，当将其作可疑人物，直到得到区域中所有可疑人物的集合；

Step9：若可疑人物的集合存在可疑人物一人以上，则按姿态检测的检测结果顺序选择可疑人物，并得到该人物的姿态点数据，若存在可疑人物小于两人，则返回Step5继续检测下一帧；

Step10：将当前可疑人物与剩余可疑人物进行两两匹配，判定人物间是否有接触；

Step11：将当前可疑人物的姿态与配置的斗殴姿态特征样本进行对比，判定该人物是否处于斗殴姿态；

Step12：结合Step10和Step11得出的结果，若当前可疑人物同时与其他人有接触且处于斗殴姿态则判定为斗殴状态，此时斗殴状态计数+10，判断此时斗殴状态计数是否大于阈值，若存大于则发出警报并进入下一帧检测，否则直接进入下一帧；若当前可疑人物与他人没有接触或未处于斗殴姿态则标记为未斗殴状态，并返回Step9对下一可疑人物进行判断，直至当前帧可疑人物均判断完毕。

进一步的，step12中，存在斗殴状态斗时殴计数+10，不存在时斗殴计数-2，斗殴计数最小为0，斗殴计数阈值根据n帧内存在斗殴行为的情况设置，实现对斗殴行为的时序性综合判断。

本发明还提供一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由所述处理器加载并执行，实现上述的感兴趣区域目标检测模型、人体姿态模型、以及暴力行为检测方法，对输入的视频实现暴力行为检测。

本发明还提供所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或一段程序被执行时，实现上述的感兴趣目标检测模型、人体姿态模型、以及暴力行为检测方法。

本发明的有益效果为：本发明结合目标检测和姿态检测，先通过目标检测划定有疑似违规行为的感兴趣区域，然后在该区域中进行放大的二次姿态检测，确定区域内人数和姿态，以此作为判断该区域是否存在暴力行为的判断依据，双重判断提高检测准确性，同时通过设置的各种阈值使得检测方法能够适用于各种场合，并且通过斗殴计数的方式对视频中人物行为实现动态时序性判断，不存在单帧判断容易误判的问题，也不需要复杂光流法等方式获取人物的连续运动信息，就能判断人物的动态行为。

本发明利用YOLOV7目标检测的快速性可以实现实时的感兴趣目标检测，但这些目标中包含了确实含有斗殴的区域和误判为斗殴的区域，容易产生误检，此时将区域取出，利用姿态检测结果作状态判定。本发明先使用目标检测进行可能存在斗殴的感兴趣目标进行预测，再对指定区域内的部分进行姿态检测，提高姿态检测输入源的信噪比，使结果更加准确。本发明方法改善了仅使用YOLOV7等目标检测方式或者仅使用姿态检测在进行斗殴检测时容易误检的问题，保持较高的精度，误判率非常低，使用场景灵活。

本发明阈值可以根据实际场景和应用需求进行灵活调整，例如在较黑暗的场景下可以将置信度稍微降低，降低因光照导致的漏判；在光照较好、人员运动比较清晰的场景下适当提高置信度，提高计数阈值，防止个别动作导致的误报；也可以考虑到摄像头角度，在对比斗殴姿势时扩充多种姿势标准，从而达到理想的效果。

附图说明

图1为本发明一种基于目标检测和姿态检测的斗殴行为检测方法检测流程图。

图2为本发明中感兴趣目标检测模型及人体姿态模型的训练流程图。

图3为本发明引入空间注意力机制的YOLOv7模型的网络结构示意图，(a)为YOLOv7中结合使用的改进的RFCBAM模块，(b)为改进的BACKBONE骨干网络，(c)为改进的ELAN模块。

图4为本发明实施的选取楼道场景进行测试，输出的检测效果图。

具体实施方式

下面结合附图对本发明的实施进行具体说明。

如图1所示，本发明融合了实时目标检测和实时姿态检测，仅需要较少量数据就可以通过目标检测划定有疑似违规行为的感兴趣区域，然后在该区域中进行放大的二次姿态检测，确定区域内人数和姿态，以此作为判断该区域是否存在暴力行为的判断依据。实现为以下步骤。

首先训练感兴趣目标检测模型及人体姿态模型，如图2所示，实施为以下step1～step3。

Step1：构建斗殴行为数据集和人体姿态数据集；采集暴力行为的图像进行标记，经过数据增强构建为斗殴行为数据集，人体姿态数据集可使用公开数据集构建，也可以基于暴力行为的图像自行标注，自行标注的数据也优选进行数据增强，以扩充训练数据。进一步的，公开数据集在实际应用时表现不足，在实际应用时很有可能需要自制数据集。本发明对此采集待检测暴力行为场景中摄像头的图像，标注后作为补充数据用于微调感兴趣目标检测模型及人体姿态模型。

其中数据增强包括：

Step1.1：对图像进行裁剪、缩放、平移、抖动等尺寸上的变换，实现扩充数据集；

Step1.2：对图像进行加噪声、调节对比度、亮度、饱和度的变换，实现频域上的变换，实现扩充数据集。

Step2：使用斗殴行为数据集训练引入空间注意力机制的YOLOv7模型，得到暴力行为的感兴趣目标检测模型，所述引入空间注意力机制的YOLOv7模型在BACKBONE部分融合RFCBAM空间感受野注意力机制，BACKBONE部分中末尾添加SwinTransformer模块，利于YOLOV7处理超分辨率的图片；对于BACKBONE中的ELAN模块中的普通Conv替换为GhostConv模块，将Head部分中的部分普通Conv替换为GhostConv模块，以弥补RFCBAM模块导致的额外计算量。如图3所示，具体实现如下。

取出在YOLOv7中的BACKBONE网络；在第一个ELAN模块前截断，在前方添加RFCBAM模块，RFCBAM模块如图3的(a)所示，具体为将上一层输出的特征图分别输入到两条支路中，第一条依次经过GlobalAvgPool层，Linear层，Relu层，Linear层，Sigmoid层，第二支路依次经过GroupConv层，Normalize层，ReLu层，Adjust Shape层，AvgPool层，Max Pool层，Conv层，Sigmoid层；将两条支路的结果通过Re-weight层组合起来，并通过一个GhostConv层，将不同感受野的特征融合在一起，完成空间注意力计算。

对于BACKBONE部分中末尾添加SwinTransformer模块，利于YOLOV7处理超分辨率的图片，改进的BACKBONE如图3的(b)所示。其中对于BACKBONE的ELAN模块也进行来改进，将Conv替换为GhostConv模块，将Head部分中的Conv替换为GhostConv模块，以弥补RFCBAM模块导致的额外计算量，如图3的(c)所示。

YOLOv7结合RFCBAM的方案可参考arXiv检索《RFAConv:Innovating SpatialAttention and Standard Convolutional Operation》，YOLOv7结合SwinTransformer的方案可参考ICCV2021文章《Swin Transformer:Hierarchical Vision Transformer usingShiftedWindows》。

如何引入合适的注意力机制模块(RFAconv而不是CBAM)，如何在找出感兴趣区域之后再进行姿态检测的情况下依旧保持实时性(融合一些特殊Conv层)，以及提到的缩小检测范围实际上是一种数据预处理手段，本案例利用深度学习本身进行数据预处理而不需要改变图像本身。

Step3：将人体姿态数据集放入YOLOv8姿态检测网络中训练，得到人体姿态模型；

Step4：根据使用场景，初始化斗殴计数为0，设置斗殴计数阈值及斗殴姿态特征样本；

Step5：读取视频，将视频帧放入Step2中的目标检测网络，得到可能存在暴力行为的区域；

Step6：使用Step3中得到的人体姿态模型对可能存在暴力行为的区域进行人体姿态检测，得到区域中人的数量和每个人的姿态点。具体实施时，将得到的区域截取为一个新的图像矩阵，即区域的截图，矩阵元素即为RGB像素，按图片像素顺序存放到新的内存区，用于姿态检测。

Step7：根据区域内的人数判断，若小于两人则丢弃该检测结果，继续检测下一帧，若大于两人则计算每个人在区域内的像素面积。

Step8.1：人物像素面积为人物框的像素点总数，每个人的像素面积为Step6人体姿态检测时输出的人物框的长乘宽W_person×H_person，区域总像素面积为Step5中得出感兴趣区域的长乘宽W_area×H_area，根据公式(1)计算画面占比：

Step8.2：对Step8.1计算出的每个人的指标进行筛选，低于0.3定义为远景或误检进行删除，其余保留。

Step9：若存在可疑人物一人以上则姿态检测检测结果按顺序选择可疑人物，并得到该人物的数据，若存在可疑人物小于两人，则返回Step5继续检测下一帧。

Step10：将当前可疑人物与剩余可疑人物进行两两匹配，判定人物间是否有接触。

Step10.1：根据得出的每个人的像素面积S_p1和S_p2，从中依次抽取每两个人进行一次IOU交并比计算，IOU的值由两个区域相交的面积除以两个区域相并的面积，每两人之间的IOU值由公式(2)计算得出：

Step10.2：判断IOU值是否大于0.2，如果大于0.2则判定为这两人是接触状态，否则是非接触状态。

Step11：将当前可疑人物的姿态与配置的斗殴姿态特征样本进行对比，判定该人物是否处于斗殴姿态。

Step11.1：根据可疑人物的姿态点位置，根据场景状况进行筛选，丢弃置信度不满足置信度阈值的点，置信度阈值根据场景亮度及摄像头角度设置；本发明的姿态检测是一致2D姿态检测，相当于是投影到一个平面上，而摄像头一般时从高处向下监控以覆盖更多区域，考虑极端情况，一个人从正上方观察只能看到头和肩膀，这种情况下基于2D是无法实现姿态检测的。通过置信度阈值筛除无用的检测数据。

Step11.2：对比斗殴姿态特征样本与当前判断目标的姿态的相似度，如相似度满足要求则判定为斗殴状态，否则判定为未斗殴状态。这里预设的斗殴姿态特征样本与视频摄像头的角度相关，例如对于侧视的摄像头可以计算手肘到手掌与地面的夹角、手肘到肩膀的夹角、胳膊与手臂的位置，参考图4右一男生姿势，如果存在双臂呈拳击姿态并且手臂与他人的检测框有所重合则判定为斗殴状态，否则判定为未斗殴状态。

Step12：结合Step10和Step11得出的结果，若当前可疑人物同时与其他人有接触且处于斗殴姿态则判定为斗殴状态，此时斗殴状态计数加k，判定此时斗殴状态计数是否大于阈值，若存大于则发出警报，并进入下一帧，否则直接进入下一帧；若当前可疑人物与他人没有接触或未处于斗殴姿态则标记为未斗殴状态，并返回Step9对下一可疑人物进行判断，直至当前帧可疑人物均判断完毕。

作为优选方式，Step12中存在斗殴状态斗时殴计数加k，不存在时斗殴计数减j，k、j为整数，斗殴计数最小为0，斗殴计数阈值根据n帧内存在斗殴行为的情况设置，实现对斗殴行为的时序性综合判断。本发明中，一旦当前视频帧判断有斗殴行为就增加斗殴计数并进入下一帧检测，一帧视频帧的斗殴计数只会加k，防止计数暴增，斗殴计数最小为0不为负，防止多帧无斗殴行为时的计数减值影响到后续斗殴行为的加值。以一个实施例说明本发明的斗殴计数设置，例如设置存在斗殴状态斗时殴计数+10，不存在时斗殴计数-2，斗殴计数阈值设为70，则连续7帧出现斗殴行为，或者12帧内出现断续的斗殴行为都会被判为存在斗殴并报警，符合实际人物行为的动态特性，不论是连续动作或是间断性动作，都能实现准确判断。

本发明实施例还提供一种电子设备，包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行，实现上述实施例所述的感兴趣区域目标检测模型、人体姿态模型、以及暴力行为检测方法，对输入的视频实现暴力行为检测。本发明电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、智能电话、可穿戴设备和其它类似的数据计算装置。所述处理器可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。

本发明实施例还提供一种存储有计算机程序的计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本发明实施例的方法。用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

Claims

1.一种暴力行为检测方法，其特征是基于目标检测和姿态检测，包括以下步骤：

Step1：构建斗殴行为数据集和人体姿态数据集；

Step2：使用斗殴行为数据集训练引入空间注意力机制的YOLOv7模型，得到暴力行为的感兴趣目标检测模型；所述引入空间注意力机制的YOLOv7模型实现为：

对YOLOV7中的BACKBONE网络，在第一个ELAN模块前截断，在前方添加RFCBAM模块，具体为将输入分别输入到两条支路中，第一条依次经过GlobalAvgPool层、Linear层、Relu层、Linear层和Sigmoid层，第二支路依次经过GroupConv层、Normalize层、ReLu层、AdjustShape层、AvgPool层、Max Pool层、Conv层和Sigmoid层；将两条支路的结果通过Re-weight层组合起来，并通过一个GhostConv层，将不同感受野的特征融合在一起，完成空间注意力计算；注意力计算的结果用于YOLOV7的检测，最终输出可能存在暴力行为的区域；

其中对BACKBONE末尾添加SwinTransformer模块，利于YOLOV7处理超分辨率的图片；对于BACKBONE中的ELAN模块，将Conv替换为GhostConv模块，将Head部分中的Conv替换为GhostConv模块，以弥补RFCBAM模块导致的额外计算量；

Step12：结合Step10和Step11得出的结果，若当前可疑人物同时与其他人有接触且处于斗殴姿态则判定为斗殴状态，此时斗殴状态计数加k，判断此时斗殴状态计数是否大于阈值，若存大于则发出警报并进入下一帧检测，否则直接进入下一帧；若当前可疑人物与他人没有接触或未处于斗殴姿态则标记为未斗殴状态，并返回Step9对下一可疑人物进行判断，直至当前帧可疑人物均判断完毕。

2.根据权利要求1所述的暴力行为检测方法，其特征是Step12中，存在斗殴状态斗时殴计数加k，不存在时斗殴计数减j，k、j为整数，斗殴计数最小为0，斗殴计数阈值根据n帧内存在斗殴行为的情况设置，实现对斗殴行为的时序性综合判断。

3.根据权利要求1所述的暴力行为检测方法，其特征是step1中，采集暴力行为的图像进行标记，经过数据增强构建为斗殴行为数据集，人体姿态数据集使用公开数据集构建，或基于暴力行为的图像进行标记，数据增强后构建为人体姿态数据集。

4.根据权利要求3所述的暴力行为检测方法，其特征是采集待检测暴力行为场景中摄像头的图像，标记后作为补充数据用于微调感兴趣目标检测模型及人体姿态模型。

5.根据权利要求3所述的暴力行为检测方法，其特征是数据增强包括：

1.1）对图像进行尺寸上的变换，包括裁剪、缩放、平移和抖动，扩充数据集；

1.2）对图像进行加噪声、调节对比度、亮度、和饱和度的变换，实现频域上的变换，扩充数据集。

6.根据权利要求1所述的暴力行为检测方法，其特征是step10中判定人物之间是否有接触具体为：

10.1）根据step6得出的每个人的像素面积，从中依次抽取每两个人进行一次IOU交并比计算，IOU的值由两个区域相交的面积除以两个区域相并的面积；

10.2）判断IOU值是否大于0.2，如果大于0.2则判定为这两人是接触状态，否则是非接触状态。

7.根据权利要求1所述的暴力行为检测方法，其特征是step11判定人物是否处于斗殴姿态具体为：

11.1）对可疑人物的姿态点数据，根据场景状况进行筛选，丢弃置信度不满足置信度阈值的点，置信度阈值根据场景亮度及摄像头角度设置；

11.2）对比预设的斗殴姿态特征样本与当前判断目标的姿态的相似度，斗殴姿态特征样本与视频摄像头的角度相关，如相似度满足要求则判定为斗殴状态，否则判定为未斗殴状态。

8.一种电子设备，其特征是所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由所述处理器加载并执行，实现如权利要求1-7任一项所述的感兴趣区域目标检测模型、人体姿态模型、以及暴力行为检测方法，对输入的视频实现暴力行为检测。

9.一种计算机可读存储介质，其特征是所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或一段程序被执行时，实现如权利要求1-7任一项所述的感兴趣区域目标检测模型、人体姿态模型、以及暴力行为检测方法。