CN116824135A

CN116824135A - 基于机器视觉的大气自然环境试验工业产品识别分割方法

Info

Publication number: CN116824135A
Application number: CN202310585091.9A
Authority: CN
Inventors: 苏晓杰; 陈康; 吴�灿; 孙少欣; 敖文刚; 马铁东
Original assignee: Chongqing University; Chongqing Technology and Business University
Current assignee: Chongqing University; Chongqing Technology and Business University
Priority date: 2023-05-23
Filing date: 2023-05-23
Publication date: 2023-09-29

Abstract

本申请提供一种基于机器视觉的大气自然环境试验工业产品识别分割方法。方法包括：对初始图像集进行预处理，得到预处理后的数据集，预处理后的数据集包括训练集、验证集和测试集；对训练集的图像中的标注框进行聚类，得到候选框；基于候选框、训练集、验证集和测试集，对预设的基于深度学习的神经网络模型进行训练和测试，得到目标检测模型；将待测图像输入目标检测模型，得到检测结果；当检测结果表示待测图像中存在所述工业产品的检测框时，在待测图像中基于检测框进行裁剪，得到区域图像；基于分割模型SAM，对区域图像进行分割，得到与单个工业产品对应的结果图像。如此，无需进行像素级的标注和训练，有利于提高分割单个工业产品的效率。

Description

基于机器视觉的大气自然环境试验工业产品识别分割方法

技术领域

本发明涉及机器视觉技术领域，具体而言，涉及一种基于机器视觉的大气自然环境试验工业产品识别分割方法。

背景技术

大气自然环境工业产品试验的数据采集主要依靠人工定期采样的方式，该方法存在采集效率低，采集数据噪声大，无法实时采样，恶劣环境下无法人工作业等问题。因此，存在引入机器人，人工智能等手段到大气自然环境工业产品试验的数据采集。在利用机器视觉技术进行目标检测的场景中，目标检测算法只能通过水平矩形框圈出实例产品，无法将实例与背景分离开，且采集到的图像数据存在大量噪声。目前，语义分割和实例分割算法可以实现实例与背景的分离，但针对单个实例分割的效果差或效率低。例如，语义分割不能区分属于相同类别的不同实例产品，故而无法分别采样同一类别的不同实例的图像数据。实例分割可以进行像素级别的分类，还可以在具体的类别基础上区别开不同的实例，但是实例分割的效果很大程度上取决于训练集的质量，且所需的训练集的标注是像素级的，需要耗费大量的标注时间和劳动力，且实例分割的训练难度相较于目标检测所需的计算机资源更大，耗费的时间更久。

发明内容

有鉴于此，本申请实施例的目的在于提供一种基于机器视觉的大气自然环境试验工业产品识别分割方法，能够改善从整图中识别分割单个工业产品的图像的效果差、效率低的问题。

为实现上述技术目的，本申请采用的技术方案如下：

本申请实施例提供了一种基于机器视觉的大气自然环境试验工业产品识别分割方法，所述方法包括：

获取初始图像集，所述初始图像集包括在大气自然环境试验下拍摄工业产品得到的图像；

对所述初始图像集进行预处理，得到预处理后的数据集，所述预处理后的数据集包括训练集、验证集和测试集；

对所述训练集的图像中的标注框进行聚类，得到候选框，所述候选框为距离每个聚类中心点最近的标注框，所述聚类中心点是通过对所述标注框进行聚类得到的；

基于所述候选框、所述训练集、所述验证集和所述测试集，对预设的基于深度学习的神经网络模型进行训练和测试，得到目标检测模型；

将待测图像输入所述目标检测模型，得到检测结果；

当所述检测结果表示所述待测图像中存在所述工业产品的检测框时，在所述待测图像中基于所述检测框进行裁剪，得到裁剪的区域图像；

基于预设的分割模型SAM，对所述区域图像进行分割，得到与单个所述工业产品对应的结果图像。

在一些可选的实施方式中，对所述初始图像集进行预处理，得到预处理后的数据集，包括：

通过标注工具labelImg对所述初始图像集中的每个图像进行标注，得到与每个图像对应的标注数据，并形成第一数据集，其中，当所述初始图像集中的任一个图像存在工业产品时，与所述任一个图像对应的所述标注数据包括所述工业产品的位置和类别；

基于预设清洗策略，对所述第一数据集进行清洗筛选，得到第二数据集；

对所述第二数据集进行数据增强操作，得到第三数据集，其中，所述数据增强操作包括对所述第二数据集中的图像进行随机翻转、随机旋转、随机调整图像的亮度和对比度中的至少一种操作；

将所述第三数据集按照预设比例进行划分，得到训练集、验证集和测试集，以作为所述预处理后的数据集。

在一些可选的实施方式中，基于预设清洗策略，对所述第一数据集进行清洗筛选，得到第二数据集，包括：

在所述第一数据集中，滤除表征标注异常的标注数据及与异常的标注数据对应的图像，以及滤除表征图像质量异常的图像及与异常的图像对应的标注数据，得到所述第二数据集。

在一些可选的实施方式中，对所述训练集的图像中的标注框进行聚类，得到候选框，包括：

提取所述训练集的图像中与所述工业产品对应的标注框的坐标；

对所有所述坐标进行归一化，得到归一化的坐标；

采用K-means算法对所有归一化后的坐标进行聚类，得到K个聚类中心点，K为大于1的整数；

针对所述训练集中的与所述工业产品对应的标注框，选择与每个所述聚类中心点最近的标注框作为所述候选框。

在一些可选的实施方式中，基于所述候选框、所述训练集、所述验证集和所述测试集，对预设的基于深度学习的神经网络模型进行训练和测试，得到目标检测模型，包括：

采用随机梯度下降算法基于所述候选框、所述训练集，对所述神经网络模型进行训练，所述神经网络模型包括YOLO模型、Fast R-CNN模型中的任一种；

基于所述验证集，对训练后的神经网络模型进行评估，得到评估指标，所述评估指标包括精度、召回率及F1分数中的至少一种；

当所述评估指标不满足预设条件时，调整所述神经网络模型的超参数或网络结构，并基于调整后的神经网络模型，重新执行步骤采用随机梯度下降算法基于所述候选框、所述训练集，对所述神经网络模型进行训练，以及步骤基于所述验证集，对训练后的神经网络模型进行评估，直至重复训练次数达到指定次数，当评估指标满足所述预设条件，其中，所述超参数包括学习率、批量大小以及迭代次数中的至少一种；

当所述评估指标满足所述预设条件时，通过测试集对经过训练的神经网络模型进行测试，得到经过训练测试的神经网络模型以作为所述目标检测模型。

在一些可选的实施方式中，将待测图像输入所述目标检测模型，得到检测结果，包括：

将所述待测图像输入所述目标检测模型；

通过所述目标检测模型从所述待测图像提取图像特征；

通过所述目标检测模型中的特征金字塔网络，对所述图像特征提取特征金字塔，得到不同尺寸特征图；

通过对所述不同尺寸特征图进行池化、卷积操作，得到所述检测结果，其中，当所述待测图像中存在所述工业产品时，所述检测结果包括所述工业产品的类别和检测框。

在一些可选的实施方式中，在所述待测图像中基于所述检测框进行裁剪，得到裁剪的区域图像，包括：

将所述检测框以中心位置为定点放大指定倍数，得到裁剪框，所述指定倍数大于1且小于1.5；

在所述待测图像中沿所述裁剪框进行裁剪，得到所述裁剪框的所述区域图像。

在一些可选的实施方式中，基于预设的分割模型SAM，对所述区域图像进行分割，得到与单个所述工业产品对应的结果图像，包括：

针对每个所述区域图像，将所述区域图像和所述区域图像的中心点输入至所述SAM，得到与所述区域图像中的所述工业产品对应的掩膜；

将所述掩膜通过预设的广播机制乘以四维数组[255,255,255,255]，并与所述区域图像做与运算，得到所述工业产品的背景呈透明的图片，以作为所述结果图像。

采用上述技术方案的发明，具有如下优点：

在本申请提供的技术方案中，利用候选框、训练集、验证集和测试集，基于深度学习的神经网络模型进行训练和测试，得到目标检测模型；接着，将待测图像输入所述目标检测模型，检测待测图像中是否存在工业产品，并在存在工业产品时，通过检测框对待测图像中的工业产品进行框选标注；再基于检测框，对工业产品的图区进行裁剪，最后利用SAM对裁剪的区域图像进行分割，得到与单个工业产品对应的结果图像。如此，无需进行像素级的标注和训练，便能实现单个工业产品的准确识别与分割，从而有利于提高分割单个工业产品的效率。

附图说明

本申请可以通过附图给出的非限定性实施例进一步说明。应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的基于机器视觉的大气自然环境试验工业产品识别分割方法的流程示意图。

图2A为本申请实施例提供的待测图像的示意图。

图2B为从图2A中裁剪得到的区域图像的示意图。

图2C为从图2B中分割得到的结果图像的示意图。

具体实施方式

以下将结合附图和具体实施例对本申请进行详细说明，需要说明的是，在附图或说明书描述中，相似或相同的部分都使用相同的图号，附图中未绘示或描述的实现方式，为所属技术领域中普通技术人员所知的形式。在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

请参照图1，本申请提供一种基于机器视觉的大气自然环境试验工业产品识别分割方法，可以应用于电子设备，由电子设备执行或实现方法的各步骤。

可理解地，电子设备可以包括处理模块及存储模块。存储模块内存储计算机程序，当计算机程序被所述处理模块执行时，使得电子设备能够执行基于机器视觉的大气自然环境试验工业产品识别分割方法中的相应步骤。

其中，电子设备可以是但不限于智能机器人、个人电脑等设备。例如，若工业产品图像采集现场处于恶劣的大气自然环境下，无法人工作业，此时，可以控制机器人到现场进行图像采集，以替换人工作业，并由机器人进行图像中工业产品的识别与分割。

在基于机器视觉的大气自然环境试验工业产品识别分割方法中，被识别与分割的工业产品可以根据实际情况灵活确定。例如，该工业产品可以是但不限于产品的零部件、整个产品等，比如，该工业产品可以为如图2A中所示的片状结构。

其中，基于机器视觉的大气自然环境试验工业产品识别分割方法可以包括如下步骤：

步骤110，获取初始图像集，所述初始图像集包括在大气自然环境试验下拍摄工业产品得到的图像；

步骤120，对所述初始图像集进行预处理，得到预处理后的数据集，所述预处理后的数据集包括训练集、验证集和测试集；

步骤130，对所述训练集的图像中的标注框进行聚类，得到候选框，所述候选框为距离每个聚类中心点最近的标注框，所述聚类中心点是通过对所述标注框进行聚类得到的；

步骤140，基于所述候选框、所述训练集、所述验证集和所述测试集，对预设的基于深度学习的神经网络模型进行训练和测试，得到目标检测模型；

步骤150，将待测图像输入所述目标检测模型，得到检测结果；

步骤160，当所述检测结果表示所述待测图像中存在所述工业产品的检测框时，在所述待测图像中基于所述检测框进行裁剪，得到裁剪的区域图像；

步骤170，基于预设的SAM(Segment Anything Model，分割一切模型)，对所述区域图像进行分割，得到与单个所述工业产品对应的结果图像。

下面将对基于机器视觉的大气自然环境试验工业产品识别分割方法的各步骤进行详细阐述，如下：

在步骤110中，初始图像集为用户预先准备好的用于模型训练、测试的原始图像的集合。初始图像集合包括在大气自然环境试验下拍摄工业产品得到的大量原始图像。所采集到的图像可以当作为工业产品识别与分割所准备的试验数据。

电子设备可以从本地或其他设备获取到初始图像集，这里对获取初始图像集的方式不作具体限制。另外，在初始图像集中，图像数量可以根据实际情况灵活确定，这里不作具体限定。

在步骤120中，对初始图像集进行预处理，是为了让预处理后的数据集直接用于模型的训练与测试。预处理可以丰富图像数据量、减少干扰数据，提高用于模型训练测试的数据集的有效性。其中，预处理可以包括图像的标注、数据清洗、数据增强等操作。

在本实施例中，步骤120对所述初始图像集进行预处理，得到预处理后的数据集，可以包括：

在本实施例中，在利用labelImg工具对图像进行标注时，用户可以对图像中的每个工业产品进行框选，并标注工业产品的类别。例如，该工业产品的类别可以根据实际情况而标注，这里对标注方式及标注内容不作具体限定。

其中，基于预设清洗策略，对所述第一数据集进行清洗筛选，得到第二数据集，包括：

在本实施例中，标注异常和图像质量异常可以均有人工进行识与选择。用户可以通过勾选异常的标注数据、质量异常的图像，从而对异常的标注数据、质量异常的图像进行删除。

异常的标注数据可以是指：标注的种类与图像中相应目标的实际种类不一致。

质量异常的图像可以是指：模糊或者失真的图像，以及包含太强的阴影或者高光的图像。

可理解地，通过检查第一数据集中的标注是否正确，滤除错误的标注及错误标注对应的图像；然后，查看第一数据集中的图像是否清晰可见，去除掉模糊或者失真的图像，去除包含太强的阴影或者高光的图像，从而得到第二数据集。

在本实施例中，对第二数据集进行数据增强操作，其中包括随机翻转、随机旋转以及随机调整图像的亮度和对比度，得到第三数据集。如此，可以丰富用于模型训练的数据量，有利于提高模型的训练效果。

在本实施例中，在第三数据集中，训练集、验证集和测试集的预设比例可以根据实际情况灵活设置，例如，训练集、验证集和测试集的比例可以为3:1:1，这里对预设比例不作具体限制。

在本实施例中，步骤130对所述训练集的图像中的标注框进行聚类，得到候选框，可以包括：

提取所述训练集的图像中与所述工业产品对应的标注框的坐标，其中，标注框可以为一种水平矩形框；

对所有所述坐标进行归一化，得到归一化的坐标；

作为一种示例性，步骤130的实现过程可以如下：

首先，将训练集中的所有正样本(比如，包含工业产品的图片)的标注框的坐标信息提取出来，构成一个数组；

对提取出来的标注框坐标数组进行归一化处理，将标注框坐标的值缩放到[0,1]范围内；

选择需要生成的候选框数量K，作为K-means算法的聚类数目,K可以根据实际情况灵活选取；

采用K-means算法对归一化后的标注框坐标数组进行聚类，得到K个聚类中心点；

对于每个聚类中心点，选择与单个聚类中心点距离最近的训练集中的标注框作为该聚类的代表框，即候选框。

在本实施例中，步骤140基于所述候选框、所述训练集、所述验证集和所述测试集，对预设的基于深度学习的神经网络模型进行训练和测试，得到目标检测模型，包括：

采用随机梯度下降(Stochastic Gradient Descent,SGD)算法基于所述候选框、所述训练集，对所述神经网络模型进行训练，所述神经网络模型包括YOLO模型、Fast R-CNN模型中的任一种；

在本实施例中，以神经网络模型为YOLO模型作为一种示例，步骤140的实现过程可以如下：

按照实际需求修改YOLO模型的损失函数，损失函数包括定位误差、分类误差和置信度误差等；

利用训练集中的图像和标注等数据，采用随机梯度下降算法进行YOLO模型训练；

设置训练过程中的超参数，其中，超参数可以包括学习率、批量大小以及迭代次数等，且可以根据实际情况灵活设置；

通过验证集对训练的YOLO模型进行评估，可以得到精确率、召回率、F1分数等评估指标，根据获得的指标来评估YOLO模型，如果YOLO模型达不到预设条件，则调整模型的超参数或网络结构，重新进行训练；其中，满足预设条件可以为指：得到的精确率、召回率、F1分数等评估指标在相应的阈值范围内，该阈值范围可以根据实际情况灵活设置；

使用测试集对模型进行测试，根据评估指标验证YOLO模型在新数据(可以是指测试集中的数据)上的泛化能力。

在本实施例中，步骤150将待测图像输入所述目标检测模型，得到检测结果，包括：

将所述待测图像输入所述目标检测模型；

通过所述目标检测模型从所述待测图像提取图像特征；

作为一种示例，步骤150的实现过程可以如下：

通过目标检测模型对工业产品的图片(即待测图片)进行卷积，非线性变换，批量归一化，得到工业产品的图像特征；

通过特征金字塔网络对图像特征提取特征金字塔、调整特征图大小和维度，并采样到同一尺寸进行融合，从而更全面地捕捉图像中的特征信息，提高目标检测的精度；

通过对不同尺寸特征图进行池化，卷积，得到实例图像中产品的类别和检测框，通过NMS(Non-Maximum Suppression,非极大值抑制)算法进一步优化预测结果，避免重复预测同一目标。

在本实施例中，步骤160在所述待测图像中基于所述检测框进行裁剪，得到裁剪的区域图像，包括：

作为一种示例，步骤160的实现过程可以如下：

根据检测框的坐标信息获取工业产品的实例的中心位置，并保存到对应的txt文件中；

将对应的检测框以中心位置为定点放大1.15倍，形成一个裁剪框；

使用OpenCV(Open Source Computer Vision，跨平台的计算机视觉库)将图像中出现的工业产品沿裁剪框单独裁剪，并将裁剪好的图像一一保存。

在本实施例中，步骤170基于预设的分割模型SAM，对所述区域图像进行分割，得到与单个所述工业产品对应的结果图像，包括：

作为一种示例，步骤170的实现过程可以如下：

使用默认权重文件初始化SAM模型；

输入区域图像和工业产品对应的中心点提示到SAM模型中，得到对应工业产品的掩膜，掩膜是长宽为区域图像像素长宽的二值数组；

将掩膜通过广播机制乘以四维数组[255,255,255,255]，再与区域图像做与运算，得到对应工业产品的背景透明的图片。

作为一种示例，待测图像可以参照图2A，通常而言，单个待测图像可以包括多个工业产品。如图2A所示，使用经过训练测试的目标检测模型(如YOLO模型)可以对工业产品的类别进行准确预测，并且可以框出每一个产品的具体位置。图2A中的检测框为裁剪框提供了一个基准，并且也是后续使用SAM模型进行分割的一个重要提示。

图2A中的一个检测框的图区经过裁剪后，如图2B所示，按照裁剪框裁剪后的工业产品图像，裁剪后所包含的实例信息完整，为后续完整分割实例奠定了基础。裁剪后的图像大小变小，减少了分割时计算机显存需求。

图2B所示的区域图像，经过SAM模型分割之后，便可以得到如图2C所示的结果图像。可理解地，基于SAM模型使用点提示对裁剪后的图像进行了分割，得到对应的掩模，再基于掩模对裁剪后的图片进行处理，得到对应实例的背景透明的图片，即，为如图2C所示的工业产品图像，在图2C中工业产品图像的背景为白色或透明颜色。在去除工业产品图像的背景之后，得到图2C所示的结果图像，有利于针对单个图像进行后续的质量检测，降低图像背景对后续质量检测的干扰。

基于上述设计，方法融合了目标检测模型(如YOLO模型)和SAM，可以实现大气环境下工业产品或其他目标(如车辆、行人)的识别与分割，有利于减少标注的人工成本和时间，提高从整图中识别分割单个工业产品的效率。另外，融合了目标检测模型和SAM后，可以实现工业产品的自动识别与分割，有利于提高识别速度和分割效果，且可移植性强，为智能化大气环境下工业产品试验检测奠定了基础。

在本实施例中，处理模块可以是一种集成电路芯片，具有信号的处理能力。上述处理模块可以是通用处理器。例如，该处理器可以是中央处理器(Central Processing Unit，CPU)、数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。

存储模块可以是，但不限于，随机存取存储器，只读存储器，可编程只读存储器，可擦除可编程只读存储器，电可擦除可编程只读存储器等。在本实施例中，存储模块可以用于存储目标检测模型、分割模型SAM、待测图像、结果图像等。当然，存储模块还可以用于存储程序，处理模块在接收到执行指令后，执行该程序。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现，基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)执行本申请各个实施场景所述的方法。

在本申请所提供的实施例中，应该理解到，所揭露的设备和方法，也可以通过其它的方式实现。以上所描述的设备和方法实施例仅仅是示意性的，例如，附图中的流程图显示了根据本申请的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于机器视觉的大气自然环境试验工业产品识别分割方法，其特征在于，所述方法包括：

将待测图像输入所述目标检测模型，得到检测结果；

2.根据权利要求1所述的方法，其特征在于，对所述初始图像集进行预处理，得到预处理后的数据集，包括：

3.根据权利要求2所述的方法，其特征在于，基于预设清洗策略，对所述第一数据集进行清洗筛选，得到第二数据集，包括：

4.根据权利要求1所述的方法，其特征在于，对所述训练集的图像中的标注框进行聚类，得到候选框，包括：

对所有所述坐标进行归一化，得到归一化的坐标；

5.根据权利要求1所述的方法，其特征在于，基于所述候选框、所述训练集、所述验证集和所述测试集，对预设的基于深度学习的神经网络模型进行训练和测试，得到目标检测模型，包括：

6.根据权利要求1所述的方法，其特征在于，将待测图像输入所述目标检测模型，得到检测结果，包括：

将所述待测图像输入所述目标检测模型；

通过所述目标检测模型从所述待测图像提取图像特征；

7.根据权利要求1所述的方法，其特征在于，在所述待测图像中基于所述检测框进行裁剪，得到裁剪的区域图像，包括：

8.根据权利要求1所述的方法，其特征在于，基于预设的分割模型SAM，对所述区域图像进行分割，得到与单个所述工业产品对应的结果图像，包括：