CN115700809A

CN115700809A - 一种基于深度学习的智能ai图像色情检测方法

Info

Publication number: CN115700809A
Application number: CN202110827835.4A
Authority: CN
Inventors: 王金水
Original assignee: Beijing Zhishi Digital Technology Development Co ltd
Current assignee: Beijing Zhishi Digital Technology Development Co ltd
Priority date: 2021-07-21
Filing date: 2021-07-21
Publication date: 2023-02-07

Abstract

本发明公开了一种基于深度学习的智能AI图像色情检测方法，通过对训练集和验证集数据进行数据增强增加样本的数量和多样性，优化模型架构，并输入到模型进行图像分类的训练，并使用测试集检测模型的性能。本发明模型测试准确率11个百分点至96.2％，精确率达到97.1％，召回率达到96.5％，有效的减少了背景干扰的同时不会丢失需要识别的目标。

Description

一种基于深度学习的智能AI图像色情检测方法

技术领域

本发明涉及智能AI图像色情检测领域，具体是一种基于深度学习的智能AI图像色情检测方法。

背景技术

网络用户每天会上传大量的视频，需要大量审核人员进行人工清查、效率较低、成本昂贵；此外，人工审核的另一个难点是对色情的判断过于主观，甚至对于部分隐晦内容需要一定的背景知识。所以图像色情识别模型应运而生，消除了人工审核的主观因素和“知识”盲区，节省了人力成本。

由于很多色情图像的背景信息对色情图像的识别有着或多或少的干扰，在图像识别之前，通常我们都会做数据增强处理，这样既可以增加数据量还可以增加样本的多样性，其中随机的图像截取，使得目标物体相当于被遮挡，可以很大程度的增加模型的鲁棒性，但是也有很大的概率丢失我们需要识别的目标信息，本来干净的训练集也很参杂着很大一部分噪声，这样对于模型的训练和识别都很造成很大的干扰，造成模型不收敛。

发明内容

本发明要解决的技术问题就是克服以上的技术缺陷，提供一种基于深度学习的智能AI图像色情检测方法，可以预处理图像分类训练集数据，使得背景信息的干扰减小但又不会造成目标信息的丢失，提升训练和检测效果。

为了解决上述问题，本发明的技术方案为：一种基于深度学习的智能AI图像色情检测方法，包括以下步骤：

(1)将训练集数据和验证集数据以9：1的比例存放并按照每一行是图像路径和标签的格式存入txt文件，然后加载图像数据，将图像路径和标签分别存入不同列表；

(2)将数据进行图像增强，其中crop方式为定义变量crop_size，先将图像resize为 crop_size尺寸，用crop_size减去模型输入尺寸再减去2，然后使用高斯分布概率取0到差值的值为crop的起点，crop的weight和width为图像输入尺寸；

(3)使用resnet50进行模型的训练，并优化模型结构；

(4)加载预训练模型，使用SGD的动量算法，加速收敛，减少收敛过程中的震荡，学习率优化使用CosineAnnealing，逃离当前局部最优点，寻找新的局部最优点；

(5)采用checkpoint策略保存最优模型并采用tensorboard策略可视化训练过程，综合 acc和loss选取最优模型；

(6)使用最优模型进行测试，测试时将图片定义变量crop_size，先将图像resize为 crop_size尺寸，用crop_size减去模型输入尺寸再除2，得到crop的起点，最后将截取图像输入模型测试并计算指标。

进一步，所述步骤(2)中图像增强的方法包括随机角度旋转、镜像翻转和色域变换等。

进一步，所述步骤(3)中原始ResNet在数据进入网络后会经过3个stride＝1的3x3卷积，可以减少信息损失，增大特征尺寸以及减少计算量，增加模型非线性。

进一步，所述步骤(4)中在每个周期计算完成后，保存不同局部最优点的模型参数，由于不同局部最优点的模型存到较大的多样性，会使集合之后效果会更好。

进一步，所述步骤(6)中测试时不再使用高斯分布选取起点，可以使每次测试结果不稳定。

本发明与现有的技术相比的优点在于：本发明模型测试准确率11个百分点至96.2％，精确率达到97.1％，召回率达到96.5％，有效的减少了背景干扰的同时不会丢失需要识别的目标。

附图说明

图1是本发明中数据流程图。

图2是本发明中实施例一的效果曲线图。

具体实施方式

以下通过具体实施例进一步描述本发明，但本发明不仅仅限于以下实施例。在本发明的范围内或者在不脱离本发明的内容、精神和范围内，对本发明进行的变更、组合或替换，对于本领域的技术人员来说是显而易见的，且包含在本发明的范围之内。

实施例一

使用1台服务器，具体服务器的配置如下：

Gpu：NVIDIA Corporation GP102[TITAN Xp]

内存：128g

网卡：千兆网卡

磁盘：5T

实验数据对色情电影进行抽帧，其中将5万张色情画面作为porn数据，正常画面作为 normal数据。再以9：1的比例将训练集分为训练集和验证集，训练过程中模型对验证集的效果图2所示。

实施例二

使用1台服务器，具体服务器的配置如下：

Gpu：NVIDIA Corporation GP102[TITAN Xp]

内存：128g

网卡：千兆网卡

磁盘：5T

实验数据对色情电影进行抽帧，其中将5万张色情画面作为porn数据，正常画面作为 normal数据。

测试数据其他色情电影进行抽帧和性感小视频和海边视频进行抽帧，随机选取5千张 porn数据、5千张sexy数据(性感舞者以及穿着较少的海边泳衣数据)和5千张normal数据。

测试过程，对测试数据也进行crop_size减去输入尺寸再减去2的固定值作为crop起点，截取长度为图像输入尺寸，gpu的利用率达到90-100％。

测试的结果：在测试数据加入sexy数据后，生成测试热图，观察模型的关注点，发现模型能够很好的关注到porn图片中出现的敏感部位等关键信息，没有受到sexy图像的干扰，模型测试准确率达到97.9％，精确率达到97.5％，召回率达到98.7％。

实施例三

使用1台服务器，具体服务器的配置如下：

Gpu：NVIDIA Corporation GP102[TITAN Xp]

内存：128g

网卡：千兆网卡

磁盘：5T

测试数据其他色情电影进行抽帧和性感小视频和海边视频进行抽帧，随机选取5千张 porn数据、5千张sexy数据(性感舞者以及穿着较少的海边泳衣数据)、5千张normal数据，另加入5千张将敏感部位做小，或者把周边图像、场景复杂化、添加一些干扰，比如噪点、压缩等。

测试的结果：在测试数据新加入干扰数据后，生成测试热图，观察模型的关注点，发现模型依然能够很好的关注到porn图片中出现的敏感部位等关键点，没有受到干扰，模型测试准确率达到97.1％，精确率达到97.8％，召回率达到98.2％。

综合以上三个实施例形成表1

表1

以上所述仅为本发明专利的较佳实施例而已，并不用以限制本发明专利，凡在本发明专利的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明专利的保护范围之内。

Claims

1.一种基于深度学习的智能AI图像色情检测方法，其特征在于，包括以下步骤：

(1)将训练集数据和验证集数据以9∶1的比例存放并按照每一行是图像路径和标签的格式存入txt文件，然后加载图像数据，将图像路径和标签分别存入不同列表；

(2)将数据进行图像增强，其中crop方式为定义变量crop_size，先将图像resize为crop_size尺寸，用crop_size减去模型输入尺寸再减去2，然后使用高斯分布概率取0到差值的值为crop的起点，crop的weight和width为图像输入尺寸；

(3)使用resnet50进行模型的训练，并优化模型结构；

(5)采用checkpoint策略保存最优模型并采用tensorboard策略可视化训练过程，综合acc和loss选取最优模型；

(6)使用最优模型进行测试，测试时将图片定义变量crop_size，先将图像resize为crop_size尺寸，用crop_size减去模型输入尺寸再除2，得到crop的起点，最后将截取图像输入模型测试并计算指标。

2.根据权利要求1所述的一种基于深度学习的智能AI图像色情检测方法，其特征在于：所述步骤(2)中图像增强的方法包括随机角度旋转、镜像翻转和色域变换等。

3.根据权利要求1所述的一种基于深度学习的智能AI图像色情检测方法，其特征在于：所述步骤(3)中原始ResNet在数据进入网络后会经过3个stride＝1的3x3卷积。

4.根据权利要求1所述的一种基于深度学习的智能AI图像色情检测方法，其特征在于：所述步骤(4)中在每个周期计算完成后，保存不同局部最优点的模型参数。

5.根据权利要求1所述的一种基于深度学习的智能AI图像色情检测方法，其特征在于：所述步骤(6)中测试时不再使用高斯分布选取起点。