CN118898869B - 一种暴力行为检测方法、电子设备及存储介质 - Google Patents
一种暴力行为检测方法、电子设备及存储介质Info
- Publication number
- CN118898869B CN118898869B CN202410943948.4A CN202410943948A CN118898869B CN 118898869 B CN118898869 B CN 118898869B CN 202410943948 A CN202410943948 A CN 202410943948A CN 118898869 B CN118898869 B CN 118898869B
- Authority
- CN
- China
- Prior art keywords
- fighting
- detection
- person
- behavior
- posture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/62—Analysis of geometric attributes of area, perimeter, diameter or volume
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30242—Counting objects in image
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Geometry (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
一种暴力行为检测方法、电子设备及存储介质,融合了实时目标检测和实时姿态检测,通过目标检测划定有疑似违规行为的感兴趣区域,然后在该区域中进行放大的二次姿态检测,确定区域内人数和姿态,以此作为判断该区域是否存在暴力行为的判断依据。本发明解决了现有技术仅依赖目标检测的方法在实际场景中因缺少数据训练和场景光线影响等,导致判断行为精度不足的问题;以及画面尺寸过大,人物在画面占比较小时姿态检测不精准的问题。本发明方法兼顾实时性、准确性,大幅降低误判率,对安保领域有重要意义。
Description
技术领域
本发明属于计算机视觉技术领域,适用于各种需要监测人员安全的场合,涉及对画面中人员是否存在暴力行为的判断,基于深度神经网络的斗殴行为检测,以及对人体姿态的检测和挖掘,为一种基于目标检测和姿态检测的斗殴行为检测方法。
背景技术
暴力行为鉴定与识别是目前研究的热点之一,通过视频监控发现有人正在进行暴力行为,可以及时采取相应措施,避免出现伤亡事件。然而,目前的暴力行为判别算法仍存在一些问题,如果仅使用一般目标检测,则会产生较大误判率,如两人靠在一起交谈、擦肩而过或者抱着杂物等正常行为也会误判为斗殴;如果仅依靠姿态算法,则因为斗殴时姿态模糊和输入图片背景占比过大导致信噪比过低,会有漏判和大量置信度偏低的关键点,另一方面许多姿势与搏击姿态可能一定的相似之处,如两人传递物品,这会导致误判;如果依靠比较复杂的大模型进行检测则会有因为计算量太大,实时性不能达到预期的问题。另外,暴力行为是一个动态时序性行为,单纯依靠每一帧的姿态检测也很容易出现误判,而利用光流法等计算人物的连续动作,其对光亮度高度敏感,斗殴时目标运动速度较快,不易于使用,也不利于对普通监控摄像头的部署。
同时,应用场景复杂,缺少相应场景下的数据集也为普通的单阶段检测带来了挑战。
发明内容
本发明要解决的问题是,现有技术对人物特定行为的检测方法,单依靠目标检测的暴力行为检测不精确,单依靠姿态检测的暴力行为检测既不精确还会存在漏检;另外人物动作是动态的,利用光流法等运动信息计算方法计算量大,不能满足轻量化部署需求。
本发明的技术方案为:一种暴力行为检测方法,基于目标检测和姿态检测,包括以下步骤:
Step1:构建斗殴行为数据集和人体姿态数据集;
Step2:使用斗殴行为数据集训练引入空间注意力机制的YOLOv7模型,得到暴力行为的感兴趣目标检测模型;
Step3:使用人体姿态数据集训练YOLOv8姿态检测网络,得到人体姿态模型;
Step4:根据使用场景,设置斗殴计数、斗殴计数阈值及斗殴姿态特征样本,并初始化斗殴计数为0;
Step5:读取视频,视频帧输入Step2中的感兴趣目标检测模型,检测输出可能存在暴力行为的区域;
Step6:使用Step3中得到的人体姿态模型进行区域内的人体姿态检测,得到区域中人的数量和每个人的姿态点;
Step7:根据区域内的人数判断,若小于两人则丢弃该检测结果,继续检测下一帧,若大于两人则计算每个人在区域内的像素面积;
Step8:计算区域总像素面积,计算每个人物在该区域的大小占比,若当前人物在画面中占比小于0.3,则将当前人物视为远景,丢弃当前人物的数据,若占比大于0.3,当将其作可疑人物,直到得到区域中所有可疑人物的集合;
Step9:若可疑人物的集合存在可疑人物一人以上,则按姿态检测的检测结果顺序选择可疑人物,并得到该人物的姿态点数据,若存在可疑人物小于两人,则返回Step5继续检测下一帧;
Step10:将当前可疑人物与剩余可疑人物进行两两匹配,判定人物间是否有接触;
Step11:将当前可疑人物的姿态与配置的斗殴姿态特征样本进行对比,判定该人物是否处于斗殴姿态;
Step12:结合Step10和Step11得出的结果,若当前可疑人物同时与其他人有接触且处于斗殴姿态则判定为斗殴状态,此时斗殴状态计数+10,判断此时斗殴状态计数是否大于阈值,若存大于则发出警报并进入下一帧检测,否则直接进入下一帧;若当前可疑人物与他人没有接触或未处于斗殴姿态则标记为未斗殴状态,并返回Step9对下一可疑人物进行判断,直至当前帧可疑人物均判断完毕。
进一步的,step12中,存在斗殴状态斗时殴计数+10,不存在时斗殴计数-2,斗殴计数最小为0,斗殴计数阈值根据n帧内存在斗殴行为的情况设置,实现对斗殴行为的时序性综合判断。
本发明还提供一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由所述处理器加载并执行,实现上述的感兴趣区域目标检测模型、人体姿态模型、以及暴力行为检测方法,对输入的视频实现暴力行为检测。
本发明还提供所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或一段程序被执行时,实现上述的感兴趣目标检测模型、人体姿态模型、以及暴力行为检测方法。
本发明的有益效果为:本发明结合目标检测和姿态检测,先通过目标检测划定有疑似违规行为的感兴趣区域,然后在该区域中进行放大的二次姿态检测,确定区域内人数和姿态,以此作为判断该区域是否存在暴力行为的判断依据,双重判断提高检测准确性,同时通过设置的各种阈值使得检测方法能够适用于各种场合,并且通过斗殴计数的方式对视频中人物行为实现动态时序性判断,不存在单帧判断容易误判的问题,也不需要复杂光流法等方式获取人物的连续运动信息,就能判断人物的动态行为。
本发明利用YOLOV7目标检测的快速性可以实现实时的感兴趣目标检测,但这些目标中包含了确实含有斗殴的区域和误判为斗殴的区域,容易产生误检,此时将区域取出,利用姿态检测结果作状态判定。本发明先使用目标检测进行可能存在斗殴的感兴趣目标进行预测,再对指定区域内的部分进行姿态检测,提高姿态检测输入源的信噪比,使结果更加准确。本发明方法改善了仅使用YOLOV7等目标检测方式或者仅使用姿态检测在进行斗殴检测时容易误检的问题,保持较高的精度,误判率非常低,使用场景灵活。
本发明阈值可以根据实际场景和应用需求进行灵活调整,例如在较黑暗的场景下可以将置信度稍微降低,降低因光照导致的漏判;在光照较好、人员运动比较清晰的场景下适当提高置信度,提高计数阈值,防止个别动作导致的误报;也可以考虑到摄像头角度,在对比斗殴姿势时扩充多种姿势标准,从而达到理想的效果。
附图说明
图1为本发明一种基于目标检测和姿态检测的斗殴行为检测方法检测流程图。
图2为本发明中感兴趣目标检测模型及人体姿态模型的训练流程图。
图3为本发明引入空间注意力机制的YOLOv7模型的网络结构示意图,(a)为YOLOv7中结合使用的改进的RFCBAM模块,(b)为改进的BACKBONE骨干网络,(c)为改进的ELAN模块。
图4为本发明实施的选取楼道场景进行测试,输出的检测效果图。
具体实施方式
下面结合附图对本发明的实施进行具体说明。
如图1所示,本发明融合了实时目标检测和实时姿态检测,仅需要较少量数据就可以通过目标检测划定有疑似违规行为的感兴趣区域,然后在该区域中进行放大的二次姿态检测,确定区域内人数和姿态,以此作为判断该区域是否存在暴力行为的判断依据。实现为以下步骤。
首先训练感兴趣目标检测模型及人体姿态模型,如图2所示,实施为以下step1~step3。
Step1:构建斗殴行为数据集和人体姿态数据集;采集暴力行为的图像进行标记,经过数据增强构建为斗殴行为数据集,人体姿态数据集可使用公开数据集构建,也可以基于暴力行为的图像自行标注,自行标注的数据也优选进行数据增强,以扩充训练数据。进一步的,公开数据集在实际应用时表现不足,在实际应用时很有可能需要自制数据集。本发明对此采集待检测暴力行为场景中摄像头的图像,标注后作为补充数据用于微调感兴趣目标检测模型及人体姿态模型。
其中数据增强包括:
Step1.1:对图像进行裁剪、缩放、平移、抖动等尺寸上的变换,实现扩充数据集;
Step1.2:对图像进行加噪声、调节对比度、亮度、饱和度的变换,实现频域上的变换,实现扩充数据集。
Step2:使用斗殴行为数据集训练引入空间注意力机制的YOLOv7模型,得到暴力行为的感兴趣目标检测模型,所述引入空间注意力机制的YOLOv7模型在BACKBONE部分融合RFCBAM空间感受野注意力机制,BACKBONE部分中末尾添加SwinTransformer模块,利于YOLOV7处理超分辨率的图片;对于BACKBONE中的ELAN模块中的普通Conv替换为GhostConv模块,将Head部分中的部分普通Conv替换为GhostConv模块,以弥补RFCBAM模块导致的额外计算量。如图3所示,具体实现如下。
取出在YOLOv7中的BACKBONE网络;在第一个ELAN模块前截断,在前方添加RFCBAM模块,RFCBAM模块如图3的(a)所示,具体为将上一层输出的特征图分别输入到两条支路中,第一条依次经过GlobalAvgPool层,Linear层,Relu层,Linear层,Sigmoid层,第二支路依次经过GroupConv层,Normalize层,ReLu层,Adjust Shape层,AvgPool层,Max Pool层,Conv层,Sigmoid层;将两条支路的结果通过Re-weight层组合起来,并通过一个GhostConv层,将不同感受野的特征融合在一起,完成空间注意力计算。
对于BACKBONE部分中末尾添加SwinTransformer模块,利于YOLOV7处理超分辨率的图片,改进的BACKBONE如图3的(b)所示。其中对于BACKBONE的ELAN模块也进行来改进,将Conv替换为GhostConv模块,将Head部分中的Conv替换为GhostConv模块,以弥补RFCBAM模块导致的额外计算量,如图3的(c)所示。
YOLOv7结合RFCBAM的方案可参考arXiv检索《RFAConv:Innovating SpatialAttention and Standard Convolutional Operation》,YOLOv7结合SwinTransformer的方案可参考ICCV2021文章《Swin Transformer:Hierarchical Vision Transformer usingShiftedWindows》。
如何引入合适的注意力机制模块(RFAconv而不是CBAM),如何在找出感兴趣区域之后再进行姿态检测的情况下依旧保持实时性(融合一些特殊Conv层),以及提到的缩小检测范围实际上是一种数据预处理手段,本案例利用深度学习本身进行数据预处理而不需要改变图像本身。
Step3:将人体姿态数据集放入YOLOv8姿态检测网络中训练,得到人体姿态模型;
Step4:根据使用场景,初始化斗殴计数为0,设置斗殴计数阈值及斗殴姿态特征样本;
Step5:读取视频,将视频帧放入Step2中的目标检测网络,得到可能存在暴力行为的区域;
Step6:使用Step3中得到的人体姿态模型对可能存在暴力行为的区域进行人体姿态检测,得到区域中人的数量和每个人的姿态点。具体实施时,将得到的区域截取为一个新的图像矩阵,即区域的截图,矩阵元素即为RGB像素,按图片像素顺序存放到新的内存区,用于姿态检测。
Step7:根据区域内的人数判断,若小于两人则丢弃该检测结果,继续检测下一帧,若大于两人则计算每个人在区域内的像素面积。
Step8:计算区域总像素面积,计算每个人物在该区域的大小占比,若当前人物在画面中占比小于0.3,则将当前人物视为远景,丢弃当前人物的数据,若占比大于0.3,当将其作可疑人物,直到得到区域中所有可疑人物的集合;
Step8.1:人物像素面积为人物框的像素点总数,每个人的像素面积为Step6人体姿态检测时输出的人物框的长乘宽Wperson×Hperson,区域总像素面积为Step5中得出感兴趣区域的长乘宽Warea×Harea,根据公式(1)计算画面占比:
Step8.2:对Step8.1计算出的每个人的指标进行筛选,低于0.3定义为远景或误检进行删除,其余保留。
Step9:若存在可疑人物一人以上则姿态检测检测结果按顺序选择可疑人物,并得到该人物的数据,若存在可疑人物小于两人,则返回Step5继续检测下一帧。
Step10:将当前可疑人物与剩余可疑人物进行两两匹配,判定人物间是否有接触。
Step10.1:根据得出的每个人的像素面积Sp1和Sp2,从中依次抽取每两个人进行一次IOU交并比计算,IOU的值由两个区域相交的面积除以两个区域相并的面积,每两人之间的IOU值由公式(2)计算得出:
Step10.2:判断IOU值是否大于0.2,如果大于0.2则判定为这两人是接触状态,否则是非接触状态。
Step11:将当前可疑人物的姿态与配置的斗殴姿态特征样本进行对比,判定该人物是否处于斗殴姿态。
Step11.1:根据可疑人物的姿态点位置,根据场景状况进行筛选,丢弃置信度不满足置信度阈值的点,置信度阈值根据场景亮度及摄像头角度设置;本发明的姿态检测是一致2D姿态检测,相当于是投影到一个平面上,而摄像头一般时从高处向下监控以覆盖更多区域,考虑极端情况,一个人从正上方观察只能看到头和肩膀,这种情况下基于2D是无法实现姿态检测的。通过置信度阈值筛除无用的检测数据。
Step11.2:对比斗殴姿态特征样本与当前判断目标的姿态的相似度,如相似度满足要求则判定为斗殴状态,否则判定为未斗殴状态。这里预设的斗殴姿态特征样本与视频摄像头的角度相关,例如对于侧视的摄像头可以计算手肘到手掌与地面的夹角、手肘到肩膀的夹角、胳膊与手臂的位置,参考图4右一男生姿势,如果存在双臂呈拳击姿态并且手臂与他人的检测框有所重合则判定为斗殴状态,否则判定为未斗殴状态。
Step12:结合Step10和Step11得出的结果,若当前可疑人物同时与其他人有接触且处于斗殴姿态则判定为斗殴状态,此时斗殴状态计数加k,判定此时斗殴状态计数是否大于阈值,若存大于则发出警报,并进入下一帧,否则直接进入下一帧;若当前可疑人物与他人没有接触或未处于斗殴姿态则标记为未斗殴状态,并返回Step9对下一可疑人物进行判断,直至当前帧可疑人物均判断完毕。
作为优选方式,Step12中存在斗殴状态斗时殴计数加k,不存在时斗殴计数减j,k、j为整数,斗殴计数最小为0,斗殴计数阈值根据n帧内存在斗殴行为的情况设置,实现对斗殴行为的时序性综合判断。本发明中,一旦当前视频帧判断有斗殴行为就增加斗殴计数并进入下一帧检测,一帧视频帧的斗殴计数只会加k,防止计数暴增,斗殴计数最小为0不为负,防止多帧无斗殴行为时的计数减值影响到后续斗殴行为的加值。以一个实施例说明本发明的斗殴计数设置,例如设置存在斗殴状态斗时殴计数+10,不存在时斗殴计数-2,斗殴计数阈值设为70,则连续7帧出现斗殴行为,或者12帧内出现断续的斗殴行为都会被判为存在斗殴并报警,符合实际人物行为的动态特性,不论是连续动作或是间断性动作,都能实现准确判断。
本发明实施例还提供一种电子设备,包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行,实现上述实施例所述的感兴趣区域目标检测模型、人体姿态模型、以及暴力行为检测方法,对输入的视频实现暴力行为检测。本发明电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、智能电话、可穿戴设备和其它类似的数据计算装置。所述处理器可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。
本发明实施例还提供一种存储有计算机程序的计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本发明实施例的方法。用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
Claims (9)
1.一种暴力行为检测方法,其特征是基于目标检测和姿态检测,包括以下步骤:
Step1:构建斗殴行为数据集和人体姿态数据集;
Step2:使用斗殴行为数据集训练引入空间注意力机制的YOLOv7模型,得到暴力行为的感兴趣目标检测模型;所述引入空间注意力机制的YOLOv7模型实现为:
对YOLOV7中的BACKBONE网络,在第一个ELAN模块前截断,在前方添加RFCBAM模块,具体为将输入分别输入到两条支路中,第一条依次经过GlobalAvgPool层、Linear层、Relu层、Linear层和Sigmoid层,第二支路依次经过GroupConv层、Normalize层、ReLu层、AdjustShape层、AvgPool层、Max Pool层、Conv层和Sigmoid层;将两条支路的结果通过Re-weight层组合起来,并通过一个GhostConv层,将不同感受野的特征融合在一起,完成空间注意力计算;注意力计算的结果用于YOLOV7的检测,最终输出可能存在暴力行为的区域;
其中对BACKBONE末尾添加SwinTransformer模块,利于YOLOV7处理超分辨率的图片;对于BACKBONE中的ELAN模块,将Conv替换为GhostConv模块,将Head部分中的Conv替换为GhostConv模块,以弥补RFCBAM模块导致的额外计算量;
Step3:使用人体姿态数据集训练YOLOv8姿态检测网络,得到人体姿态模型;
Step4:根据使用场景,设置斗殴计数、斗殴计数阈值及斗殴姿态特征样本,并初始化斗殴计数为0;
Step5:读取视频,视频帧输入Step2中的感兴趣目标检测模型,检测输出可能存在暴力行为的区域;
Step6:使用Step3中得到的人体姿态模型进行区域内的人体姿态检测,得到区域中人的数量和每个人的姿态点;
Step7:根据区域内的人数判断,若小于两人则丢弃该检测结果,继续检测下一帧,若大于两人则计算每个人在区域内的像素面积;
Step8:计算区域总像素面积,计算每个人物在该区域的大小占比,若当前人物在画面中占比小于0.3,则将当前人物视为远景,丢弃当前人物的数据,若占比大于0.3,当将其作可疑人物,直到得到区域中所有可疑人物的集合;
Step9:若可疑人物的集合存在可疑人物一人以上,则按姿态检测的检测结果顺序选择可疑人物,并得到该人物的姿态点数据,若存在可疑人物小于两人,则返回Step5继续检测下一帧;
Step10:将当前可疑人物与剩余可疑人物进行两两匹配,判定人物间是否有接触;
Step11:将当前可疑人物的姿态与配置的斗殴姿态特征样本进行对比,判定该人物是否处于斗殴姿态;
Step12:结合Step10和Step11得出的结果,若当前可疑人物同时与其他人有接触且处于斗殴姿态则判定为斗殴状态,此时斗殴状态计数加k,判断此时斗殴状态计数是否大于阈值,若存大于则发出警报并进入下一帧检测,否则直接进入下一帧;若当前可疑人物与他人没有接触或未处于斗殴姿态则标记为未斗殴状态,并返回Step9对下一可疑人物进行判断,直至当前帧可疑人物均判断完毕。
2.根据权利要求1所述的暴力行为检测方法,其特征是Step12中,存在斗殴状态斗时殴计数加k,不存在时斗殴计数减j,k、j为整数,斗殴计数最小为0,斗殴计数阈值根据n帧内存在斗殴行为的情况设置,实现对斗殴行为的时序性综合判断。
3.根据权利要求1所述的暴力行为检测方法,其特征是step1中,采集暴力行为的图像进行标记,经过数据增强构建为斗殴行为数据集,人体姿态数据集使用公开数据集构建,或基于暴力行为的图像进行标记,数据增强后构建为人体姿态数据集。
4.根据权利要求3所述的暴力行为检测方法,其特征是采集待检测暴力行为场景中摄像头的图像,标记后作为补充数据用于微调感兴趣目标检测模型及人体姿态模型。
5.根据权利要求3所述的暴力行为检测方法,其特征是数据增强包括:
1.1)对图像进行尺寸上的变换,包括裁剪、缩放、平移和抖动,扩充数据集;
1.2)对图像进行加噪声、调节对比度、亮度、和饱和度的变换,实现频域上的变换,扩充数据集。
6.根据权利要求1所述的暴力行为检测方法,其特征是step10中判定人物之间是否有接触具体为:
10.1)根据step6得出的每个人的像素面积,从中依次抽取每两个人进行一次IOU交并比计算,IOU的值由两个区域相交的面积除以两个区域相并的面积;
10.2)判断IOU值是否大于0.2,如果大于0.2则判定为这两人是接触状态,否则是非接触状态。
7.根据权利要求1所述的暴力行为检测方法,其特征是step11判定人物是否处于斗殴姿态具体为:
11.1)对可疑人物的姿态点数据,根据场景状况进行筛选,丢弃置信度不满足置信度阈值的点,置信度阈值根据场景亮度及摄像头角度设置;
11.2)对比预设的斗殴姿态特征样本与当前判断目标的姿态的相似度,斗殴姿态特征样本与视频摄像头的角度相关,如相似度满足要求则判定为斗殴状态,否则判定为未斗殴状态。
8.一种电子设备,其特征是所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由所述处理器加载并执行,实现如权利要求1-7任一项所述的感兴趣区域目标检测模型、人体姿态模型、以及暴力行为检测方法,对输入的视频实现暴力行为检测。
9.一种计算机可读存储介质,其特征是所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或一段程序被执行时,实现如权利要求1-7任一项所述的感兴趣区域目标检测模型、人体姿态模型、以及暴力行为检测方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202410943948.4A CN118898869B (zh) | 2024-07-15 | 2024-07-15 | 一种暴力行为检测方法、电子设备及存储介质 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202410943948.4A CN118898869B (zh) | 2024-07-15 | 2024-07-15 | 一种暴力行为检测方法、电子设备及存储介质 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN118898869A CN118898869A (zh) | 2024-11-05 |
| CN118898869B true CN118898869B (zh) | 2025-11-11 |
Family
ID=93262331
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202410943948.4A Active CN118898869B (zh) | 2024-07-15 | 2024-07-15 | 一种暴力行为检测方法、电子设备及存储介质 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN118898869B (zh) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119815081A (zh) * | 2025-03-12 | 2025-04-11 | 上海国际港务(集团)股份有限公司 | 一种基于注意力机制的视觉自适应方法及系统 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115346150A (zh) * | 2022-07-19 | 2022-11-15 | 内蒙古工业大学 | 一种基于边缘计算的暴力行为检测方法及系统 |
| CN118155295A (zh) * | 2024-02-05 | 2024-06-07 | 淮阴工学院 | 一种基于自适应gamma增强的卷积神经网络人脸活体检测方法 |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7558404B2 (en) * | 2005-11-28 | 2009-07-07 | Honeywell International Inc. | Detection of abnormal crowd behavior |
-
2024
- 2024-07-15 CN CN202410943948.4A patent/CN118898869B/zh active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115346150A (zh) * | 2022-07-19 | 2022-11-15 | 内蒙古工业大学 | 一种基于边缘计算的暴力行为检测方法及系统 |
| CN118155295A (zh) * | 2024-02-05 | 2024-06-07 | 淮阴工学院 | 一种基于自适应gamma增强的卷积神经网络人脸活体检测方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN118898869A (zh) | 2024-11-05 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Jalal et al. | Depth maps-based human segmentation and action recognition using full-body plus body color cues via recognizer engine | |
| Durga et al. | A ResNet deep learning based facial recognition design for future multimedia applications | |
| US20220180534A1 (en) | Pedestrian tracking method, computing device, pedestrian tracking system and storage medium | |
| Tayyab et al. | A novel sports event recognition using pose estimation and multi-fused features | |
| CN112036339B (zh) | 人脸检测的方法、装置和电子设备 | |
| CN111062263B (zh) | 手部姿态估计的方法、设备、计算机设备和存储介质 | |
| Fei et al. | Flow-pose Net: An effective two-stream network for fall detection | |
| Do et al. | Real-time and robust multiple-view gender classification using gait features in video surveillance | |
| US20240303848A1 (en) | Electronic device and method for determining human height using neural networks | |
| JP7652320B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
| Khan et al. | Tcm: Temporal consistency model for head detection in complex videos | |
| CN118898869B (zh) | 一种暴力行为检测方法、电子设备及存储介质 | |
| Ballotta et al. | Fully convolutional network for head detection with depth images | |
| Andrushchenko et al. | Hand movement disorders tracking by smartphone based on computer vision methods | |
| Gharahdaghi et al. | A non-linear mapping representing human action recognition under missing modality problem in video data | |
| Zhang | DCAlexNet: Deep coupled AlexNet for micro facial expression recognition based on double face images | |
| CN118447236A (zh) | 一种面向野外场景监视的视频显著性目标检测方法 | |
| JP2021086275A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
| CN117409482A (zh) | 基于注意力机制的细粒度动作识别与体态检测方法 | |
| Liao et al. | Tied factor analysis for unconstrained face pose classification | |
| Pairo et al. | Person following by mobile robots: analysis of visual and range tracking methods and technologies | |
| Conway et al. | Learned sensor fusion for robust human activity recognition in challenging environments | |
| CN112329665B (zh) | 一种人脸抓拍系统 | |
| Viswanatha et al. | Real-Time Hand Signal Detection Using Convolutional Neural Networks | |
| Al-Hamadi et al. | Emotional trace: Mapping of facial expression to valence-arousal space |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |