CN118297926A

CN118297926A - 一种金属加工多模态缺陷在线检测方法及其系统

Info

Publication number: CN118297926A
Application number: CN202410487375.9A
Authority: CN
Inventors: 王志刚; 李军; 孙红英; 李学忠; 孔令豪
Original assignee: Anyang Institute of Technology
Current assignee: Anyang Institute of Technology
Priority date: 2024-04-23
Filing date: 2024-04-23
Publication date: 2024-07-05

Abstract

本申请公开了一种金属加工多模态缺陷在线检测方法及其系统，涉及在线检测技术领域，可实现自定义缺陷检测，检测更精准。金属加工多模态缺陷在线检测方法包括：获取若干图像样本，并对每个图像样本进行多级文本描述标记，得到训练样本；构建初始缺陷图像文本对齐模型，并利用训练样本进行训练，得到训练好的缺陷图像文本对齐模型；其中，在训练过程中，通过加权交叉熵损失对初始缺陷图像文本对齐模型进行文本描述级别优化；获取金属加工的当前待检测图像，并对当前待检测图像进行预处理得到检验图像，基于缺陷图像文本对齐模型，将检验图像作为缺陷图像文本对齐模型的输入，对当前待检测图像进行缺陷检测得到并输出缺陷检测结果。

Description

一种金属加工多模态缺陷在线检测方法及其系统

技术领域

本申请涉及在线检测技术领域，具体而言，涉及一种金属加工多模态缺陷在线检测方法及其系统。

背景技术

在制造业生产金属元件过程中，需要进行金属加工缺陷检测，以剔除瑕疵产品。随着科学技术的不断发展，开始通过工业相机来代替人眼检测的方式，不仅解决了人眼检测效率低的问题，且金属加工缺陷检测的准确度也得到了一定程度的提高。

现有技术中的金属加工缺陷检测方法为基于传统图像处理算法的检测方法和基于深度学习分类或者分割的方法。其中，基于传统图像处理算法的方法，算法简单，容易受到检测目标对齐对齐、检测目标避免特征的影响，而导致虚警，漏检率较高，无法应用。基于深度学习分类或分割的方法，需要收集海量的训练样本，并需要尽可能的覆盖所有可能出现的缺陷，这在实际应用过程中难以做到，而且缺陷的样式很多在其出现以前是无法被定义和采集的，因此基于此方法也会造成许多的漏检问题。随着检测技术的进步和样本的增多，检测的及鞥度有所提升，但是，现有技术中的检测方法只通过对检测图像卷积进行特征提取，融合的信息远远不能区分多变的缺陷样式，且现有技术中的检测方法不够灵活，不能在线对缺陷进行分类，此外，在某种场景下，只需要检测其中某一类的缺陷，现有的模型就会出现很多的虚警。

综上，金属加工中缺陷形态多样，颜色以及尺度变化也比较大，给检测带来了很大的难度。虽然随着深度学习的出现，金属加工缺陷检测的准确度也得到了很大的提高。但在实际应用中，还远远达不到实际的需求。尤其是基于深度学习的方法，训练模型的成本很高，但金属加工中缺陷多样，经常会出现一些新的缺陷，导致模型不能够精确检测，进而需要重新收集标定样本，重新训练深度学习模型，进而导致样本标定和模型训练的成本很高。另外，信息化在金属加工缺陷问题上也具有很重要的作用，比如对缺陷的统计分析，缺陷的种类、形状、颜色等等，而这些需求在目前的模型上无法实现。

发明内容

本申请提供一种金属加工多模态缺陷在线检测方法及其系统，解决金属加工零件基于图像视觉的自动缺陷检测问题以及在线检测问题。

具体的技术方案如下：

第一方面，本申请实施例提供了一种金属加工多模态缺陷在线检测方法，包括：

获取若干图像样本，并对每个所述图像样本进行多级文本描述标记，得到训练样本；其中，所述图像样本包括正样本和负样本，所述正样本为缺陷像素点占比不低于缺陷占比阈值的缺陷图像，所述负样本为非缺陷图像；各级所述文本描述之间具有从属关系；

构建初始缺陷图像文本对齐模型，并利用所述训练样本进行训练，得到训练好的缺陷图像文本对齐模型；其中，在训练过程中，通过加权交叉熵损失对所述初始缺陷图像文本对齐模型进行文本描述级别优化；

获取金属加工的当前待检测图像，并对所述当前待检测图像进行预处理得到检验图像，基于所述缺陷图像文本对齐模型，将所述检验图像作为所述缺陷图像文本对齐模型的输入，对所述当前待检测图像进行缺陷检测得到并输出缺陷检测结果，其中，所述缺陷检测结果包括有缺陷和无缺陷。

在本申请的一些实施例中，所述文本描述包括一级文本描述、二级文本描述和三级文本描述，一级文本描述∈二级文本描述∈三级文本描述，所述缺陷图像文本对齐模型使用的加权交叉熵损失函数Loss为：

其中，n表示文本描述的全部个数；t表示当前训练样本的文本描述级别；t＝＝t1表示当前训练样本的文本描述为一级文本描述；t＝＝t2表示当前训练样本的文本描述为二级文本描述；t＝＝t3表示当前训练样本的文本描述为三级文本描述；α表示一级文本描述对应的交叉熵权重；β表示二级文本描述对应的交叉熵权重；1-α-β表示三级文本描述对应的交叉熵权重；L表示交叉熵损失函数。

在本申请的一些实施例中，所述缺陷图像文本对齐模型包括图像编码器和文本编码器，所述图像编码器用于对所述图像样本进行特征提取，并进行压缩编码，所述文本编码器用于对所述文本描述进行压缩编码。

在本申请的一些实施例中，所述缺陷图像文本对齐模型的前向过程包括：

对所述文本描述的类别进行预定义，并确定每种类别的种类数；

将待检测图像均匀划分为多个图像子块，且相邻所述图像子块之间具有部分重叠的像素点；

执行检测分类步骤对所述图像子块进行缺陷检测及分类，所述检测分类步骤包括：选取其中一个未被选择过的所述图像子块，将所选取的所述图像子块输入所述图像编码器进行压缩编码，得到图像特征向量IX，根据预定义的所述文本描述的类别，获取所述图像子块的各级预文本描述，将每个所述预文本描述分别输入所述文本编码器进行压缩编码，得到多个文本特征向量TX，计算每个所述文本特征向量TX与所述图像特征向量IX的余弦相似性，并利用所述文本描述的类别索引对多个所述余弦相似性进行降序排序，获取所述图像子块的索引排序结果；

获取所述待检测图像的各个所述图像子块的所述索引排序结果，并获取各个所述索引排序结果对应的文本描述级别，遍历所述待检测图像的每个所述图像子块，根据各个所述索引排序结果及其对应的文本描述级别，判断是否存在具有缺陷的所述图像子块，若存在，则输出所述待检测图像有缺陷，若不存在，则输出所述待检测图像无缺陷。

在本申请的一些实施例中，所述根据各个所述索引排序结果及其对应的文本描述级别，判断是否存在具有缺陷的所述图像子块，具体包括：

对每个所述图像子块进行遍历，若所述图像子块的所述索引排序结果的前两位索引属于缺陷，且前两位索引的文本描述级别的差异小于2，则判定所述图像子块具有缺陷，否则，判定所述图像子块不具有缺陷。

在本申请的一些实施例中，预定义所述文本描述的类别包括颜色特征和形状特征，所述颜色特征为n1种，所述形状特征为n2种，则所述文本特征向量TX的个数为M个，M＝n1×n2+n1+1+1或者M＝n1×n2+n2+1+1。

第二方面，本申请实施例提供了一种金属加工多模态缺陷在线检测系统，包括：

训练样本获取模块，用于获取若干图像样本，并对每个所述图像样本进行多级文本描述标记，得到训练样本；其中，所述图像样本包括正样本和负样本，所述正样本为缺陷像素点占比不低于缺陷占比阈值的缺陷图像，所述负样本为非缺陷图像；各级所述文本描述之间具有从属关系；

缺陷图像文本对齐模型构建模块，用于构建初始缺陷图像文本对齐模型，并利用所述训练样本进行训练，得到训练好的缺陷图像文本对齐模型；其中，在训练过程中，通过加权交叉熵损失对所述初始缺陷图像文本对齐模型进行文本描述级别优化；

缺陷检测模块，用于获取金属加工的当前待检测图像，并对所述当前待检测图像进行预处理得到检验图像，基于所述缺陷图像文本对齐模型，将所述检验图像作为所述缺陷图像文本对齐模型的输入，对所述当前待检测图像进行缺陷检测得到并输出缺陷检测结果，其中，所述缺陷检测结果包括有缺陷和无缺陷。

第三方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的金属加工多模态缺陷在线检测方法。

第四方面，本申请实施例提供了一种电子设备，所述电子设备包括处理器和存储器；所述处理器与所述存储器耦合，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行，使所述电子设备实现如第一方面所述的金属加工多模态缺陷在线检测方法。

第五方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品中包含有指令，当指令在计算机或处理器上运行时，使得计算机或处理器执行如第一方面所述的金属加工多模态缺陷在线检测方法。

本申请实施例的有益效果如下：

缺陷图像文本对齐模型采用可预定义的多级缺陷文本描述的缺陷分类方法，可实现更精确的缺陷检测及分类，且可实现金属加工的多模态自定义缺陷在线检测，无需重新训练模型，通过修改预定义类别即可实现对缺陷的检测，大大降低了样本标定和模型训练的成本，且能够实现对缺陷的形状、颜色等信息的统计分析。此外，该申请提出了一种多级文本描述加权训练的加权交叉熵损失函数，在更细的粒度上有区别的度量损失，使得模型的训练更加鲁棒容易收敛。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单的介绍。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种金属加工多模态缺陷在线检测方法的流程示意图；

图2为本申请实施例提供的一种金属加工多模态缺陷在线检测方法的算法框图；

图3为本申请实施例提供的一种金属加工多模态缺陷在线检测系统的组成结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。本申请实施例及附图中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如，包含的一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

本申请实施例公开了一种金属加工多模态缺陷在线检测方法，解决金属加工零件基于图像视觉的自动缺陷检测问题以及在线检测问题。以下分别进行详细说明。

图1示出了根据本申请实施例提供的一种金属加工多模态缺陷在线检测方法。如图1所示，该方法包括以下步骤：

步骤S100，获取若干图像样本，并对每个图像样本进行多级文本描述标记，得到训练样本。

本申请中的金属加工多模态缺陷在线检测方法的算法使用的模型为缺陷图像文本对齐模型，该模型主要建立缺陷图像特征与缺陷描述之间的对应关系。步骤S100用于获取对模型进行训练的训练样本，具体的，获取若干图像样本，图像样本主要包含两大类别，一类是缺陷图像样本，即正样本，另一类是其它不包含缺陷的图像样本，即负样本。

在本申请实施例中，训练样本需要进行标注。其中，图像样本的标注要求是：对于正样本需要保证图像中不低于缺陷占比阈值的图像内容均为缺陷像素，即正样本为缺陷像素点占比不低于缺陷占比阈值的缺陷图像，且缺陷的形态、颜色、位置尽可能的不同，例如，在一些具体的实施过程中，正样本的图像中超过50％的图像内容均为缺陷像素，同时各个正样本的图像缺陷的形态、颜色、位置均尽可能的不同；对于负样本，则随机从非缺陷图像中剪裁(crop)即可。图像对应的文本描述的标注要求是：对每个图像样本进行多级文本描述标记，且各级文本描述之间具有从属关系，详细的，对于正样本，一个图像样本需要有多重标注，标注之间具有部分重叠或者包含关系的内容，比如{这是一张缺陷图像}，{这是一张长条形缺陷图像}，“缺陷图像”是重叠部分，且包含了“长条形”这个特点。

在现有技术中的图像文本对齐模型中，文本描述仅有一种图像描述，即缺陷或无缺陷。而在本申请实施例中，图像样本采用多级文本描述，是本申请实施例的创新点之一，在“缺陷图像”前增加更加具体的描述，可实现更精确的缺陷检测及分类。

在一实施例中，该金属加工多模态缺陷在线检测方法采用三级文本描述标注，具体的，文本描述包括一级文本描述、二级文本描述和三级文本描述，一级文本描述∈二级文本描述∈三级文本描述，记为t1∈t2∈t3，其中，t1表示文本描述为一级文本描述，其是最为详细和具体的描述，如{这是一张白色长条形缺陷图像}，t2表示文本描述为二级文本描述，其是中等详细和具体的描述，如{这是一张长条形缺陷图像}，t3表示文本描述为三级文本描述，其是最为宏观的描述，如{这是一张缺陷图像}。

步骤S200，构建初始缺陷图像文本对齐模型，并利用训练样本进行训练，得到训练好的缺陷图像文本对齐模型。

在一些实施例中，构建初始缺陷图像文本对齐模型，并利用上述步骤S100中所获取的训练样本对该初始缺陷图像文本对齐模型进行从头训练，得到训练好的缺陷图像文本对齐模型。

在另一些实施例中，缺陷图像文本对齐模型无需从头开始训练，可基于对比语言–图像预训练模型(Contrastive Language-Image Pre-Training，CLIP)、多模态学习DeCLIP(Data Efficient Contrastive Language-Image Pre-Training)模型或者其他已有预训练模型，根据上述步骤S100中所获取的训练样本进行模型微调(Finetune)。

在本申请实施例中，如图2所示，缺陷图像文本对齐模型主要包括图像编码器Image encoder和文本编码器Text encoder。图像编码器主要对图像样本进行特征提取，并进行压缩编码，在具体的实施过程中，前述中的缺陷图像指的是超过50％的图像内容均为缺陷像素的图像。文本编码器主要对文本描述进行压缩编码，例如{这是一张缺陷图像}、{这是一张长方形缺陷图像}、{这是一张白色缺陷图像}、{这是一张正方形缺陷图像}等等。模型训练时，从训练样本中取一张图像样本，并随机从文本描述标记列表中采样一个文本描述标记，将图像样本送入Image encoder，输出图像特征IX，将文本描述送入Textencoder，输出文本特征TX。需要注意的是，本申请中的文本描述标记列表指的是所有文本描述的结合，包含了各级文本描述标注中的所有描述。

进一步的，在本申请实施例模型的训练过程中，通过加权交叉熵损失对初始缺陷图像文本对齐模型进行文本描述级别优化。针对三种不同级别的文本描述标注，缺陷图像文本对齐模型使用的加权交叉熵损失函数Loss为：

其中，n表示文本描述的全部个数。t表示当前训练样本的文本描述级别；t＝＝t1表示当前训练样本的文本描述为一级文本描述；t＝＝t2表示当前训练样本的文本描述为二级文本描述；t＝＝t3表示当前训练样本的文本描述为三级文本描述。α表示一级文本描述对应的交叉熵权重；β表示二级文本描述对应的交叉熵权重；1-α-β表示三级文本描述对应的交叉熵权重；在一些具体的实施过程中，可设定文本描述级别越低，其对应的交叉熵权重越大，即α>β>(1-α-β)，从而强制模型在训练过程中学习得更加细致具体，特征表达更精确。L表示模型的交叉熵损失函数，具体的，

其中，logx表示以10为底的对数；y表示真实答案，当y为1时，代表图像特征与文本特征对齐，当y为0时，代表图像特征与文本特征没有对齐；表示预测结果，该缺陷图像文本对齐模型的预测方法为，通过对图像特征IX和文本特征TX进行余弦相似性(cosine)计算，相似度最大的数值对应的文本描述即为模型预测的与图像配对的结果，详细的，预测方法包括以下步骤：

A、执行余弦相似性获取步骤，余弦相似性获取步骤包括：随机从文本描述标记列表中采样一个未被选择过的文本描述，并将检验图像输入图像编码器进行图像特征提取，得到检验图像的图像特征IX，将采样的文本描述输入文本编码器进行文本特征提取，得到文本描述的文本特征TX，计算图像特征IX和文本特征TX的余弦相似性；

B、重复执行余弦相似性获取步骤，直至文本描述标记列表中的文本描述全部被选择，对计算得到的全部余弦相似性进行比较，最大值的余弦相似性对应的文本描述作为当前图像的缺陷分类结果。

在本申请实施例中，缺陷图像文本对齐模型的前向过程包括以下步骤：

(1)对文本描述的类别进行预定义，并确定每种类别的种类数。

预先定义缺陷文本描述，确定缺陷描述类别数量。在一些实施例中，预定义文本描述的类别包括颜色特征和形状特征，即通过缺陷形状、颜色实现三个级别的文本描述类别定义。假设根据当前缺陷检测需求，需要定义的颜色特征为为n1种，形状特征为n2种，那么t1级文本描述有n1×n2个类别，以颜色特征作为t2级文本描述有n1个类别，或者以形状特征作为t2级文本描述有n2个类别，t3级文本描述有1个类别，即{缺陷}。需要注意并理解的是，不是缺陷不需要具体分类信息，而是采用一个类别即可满足需求，其缺陷级别定义为t3级。

在本申请实施例中，金属加工多模态缺陷在线检测方法通过预先定义缺陷文本描述，可实现自定义缺陷类别检测，即可以通过不重新训练模型，只通过预定义分类类别实现缺陷检测，能够节省训练成本，且应用便利，也能够实现没有训练过的缺陷的检测，是本申请实施例的创新点之一，解决了现有技术中检测方法不能在线对缺陷进行分类的问题，可实现金属加工的多模态缺陷在线检测，解决金属加工零件基于图像视觉的自动缺陷检测问题以及在线检测问题。此处，需要注意并理解的是，本申请中的“在线”是指不需要重新训练模型，通过修改预定义类别即可实现对缺陷的检测。

(2)将待检测图像均匀划分为多个图像子块，且相邻图像子块之间具有部分重叠的像素点。

对待检测图像分块，可解决缺陷检测图像一般较大或者尺度变化较多的问题，且通过划分图像子块的方式既可以保证原始图像的分辨率不变，又能够更好地匹配与缺陷图像文本对齐模型的输出图像尺寸。具体的，将待检测图像均匀划分为多个图像子块，划分时保证相邻图像之间具有一定的重叠程度，即相邻图像子块之间具有部分重叠的像素点，从而尽可能的保证所划分的图像子块中能够包含相对完整的缺陷，有利于提高检出的召回率。

(3)执行检测分类步骤对图像子块进行缺陷检测及分类，检测分类步骤包括：选取其中一个未被选择过的图像子块，将所选取的图像子块输入图像编码器进行压缩编码，得到图像特征向量IX，根据预定义的文本描述的类别，获取图像子块的各级预文本描述，将每个预文本描述分别输入文本编码器进行压缩编码，得到多个文本特征向量TX，计算每个文本特征向量TX与图像特征向量IX的余弦相似性，并利用文本描述的类别索引对多个余弦相似性进行降序排序，获取图像子块的索引排序结果。

当前图像子块送入Image encoder进行压缩编码，得到图像特征向量IX，预定义类别通过固定格式的描述，例如{这是一张XX的缺陷图像}送入Text encoder预先得到M个文本特征向量TX，即{Tx1，Tx2，…，TxM}，其中，M＝n1×n2+n1+1+1或者M＝n1×n2+n2+1+1，即以颜色特征作为t2级文本描述时，t1级文本描述有n1×n2个类别，t2级文本描述有n1个类别，t3级文本描述有1个类别，即{缺陷}，还包括一个非缺陷类别的描述，即{无缺陷}，或者，以形状特征作为t2级文本描述时，t1级文本描述有n1×n2个类别，t2级文本描述有n2个类别，t3级文本描述有1个类别，即{缺陷}，还包括一个非缺陷类别的描述，即{无缺陷}。

对于当前图像子块的分类结果，根据可能性排序为：

{index1，index2，…，indexM}

其中，index为预定义的文本描述的类别的索引。进一步具体的，

其中，sort为按照元素值从大到小进行排序。

(4)获取待检测图像的各个图像子块的索引排序结果，并获取各个索引排序结果对应的文本描述级别，遍历待检测图像的每个图像子块，根据各个索引排序结果及其对应的文本描述级别，判断是否存在具有缺陷的图像子块，若存在，则输出待检测图像有缺陷，若不存在，则输出待检测图像无缺陷。

遍历(2)步骤中划分好的各个图形子块，并获得其对应的索引排序结果，即{index1，index2，…，indexM}，索引对应的文本描述级别为{t¹，t²，…，t^M}。根据根据各个索引排序结果及其对应的文本描述级别，判断是否存在具有缺陷的图像子块，若存在，则结束检测流程，输出待检测图像有缺陷，若不存在，则输出待检测图像无缺陷。

在一些具体实施例中，对每个图像子块进行遍历，若遍历检测的当前图像子块的索引排序结果的前两位索引属于缺陷，且前两位索引的文本描述级别的差异小于2，即index1和index2属于缺陷，且|t¹-t²|<2，则结束检测流程，并输出结果为：有缺陷，否则，继续遍历后续的图像子块，若直至遍历完成，也未检测到具有缺陷的图像子块，则输出结果为：无缺陷。

步骤S300，获取金属加工的当前待检测图像，并对当前待检测图像进行预处理得到检验图像，基于缺陷图像文本对齐模型，将检验图像作为缺陷图像文本对齐模型的输入，对当前待检测图像进行缺陷检测得到并输出缺陷检测结果。

其中，缺陷检测结果包括有缺陷和无缺陷。利用上述步骤S200中得到的训练好的缺陷图像文本对齐模型，对金属加工的当前待检测图像进行缺陷在线检测。在具体的实施过程中，可先对当前待检测图像进行预处理得到检验图像，再对检验图像进行缺陷检测，例如图像增强处理，以进一步提高缺陷检测的准确度。

相应于上述方法实施例，本申请实施例还提供了一种金属加工多模态缺陷在线检测系统，如图3所示，该金属加工多模态缺陷在线检测系统200主要包括：训练样本获取模块210、缺陷图像文本对齐模型构建模块220和缺陷检测模块230。

具体的，训练样本获取模块210用于获取若干图像样本，并对每个图像样本进行多级文本描述标记，得到训练样本。其中，图像样本包括正样本和负样本，正样本为缺陷像素点占比不低于缺陷占比阈值的缺陷图像，负样本为非缺陷图像；各级文本描述之间具有从属关系。

在一些实施例中，文本描述包括一级文本描述、二级文本描述和三级文本描述，一级文本描述∈二级文本描述∈三级文本描述，缺陷图像文本对齐模型使用的加权交叉熵损失函数Loss为：

缺陷图像文本对齐模型构建模块220用于构建初始缺陷图像文本对齐模型，并利用训练样本进行训练，得到训练好的缺陷图像文本对齐模型。其中，在训练过程中，通过加权交叉熵损失对初始缺陷图像文本对齐模型进行文本描述级别优化。

在一些实施例中，缺陷图像文本对齐模型包括图像编码器和文本编码器，图像编码器用于对图像样本进行特征提取，并进行压缩编码，文本编码器用于对文本描述进行压缩编码。

进一步的，缺陷图像文本对齐模型的前向过程包括以下步骤：

需要注意的是，上述金属加工多模态缺陷在线检测系统实施例与金属加工多模态缺陷在线检测方法实施例相对应，与该金属加工多模态缺陷在线检测方法实施例具有同样的技术效果，具体说明可参见金属加工多模态缺陷在线检测方法实施例，同时，金属加工多模态缺陷在线检测系统实施例是基于金属加工多模态缺陷在线检测方法实施例得到的，具体的说明可以参见金属加工多模态缺陷在线检测方法实施例部分，此处不再赘述。

综上所述，本申请公开一种金属加工多模态缺陷在线检测方法及其系统，缺陷图像文本对齐模型采用可预定义的多级缺陷文本描述的缺陷分类方法，可实现更精确的缺陷检测及分类，且可实现金属加工的多模态自定义缺陷在线检测，无需重新训练模型，通过修改预定义类别即可实现对缺陷的检测，大大降低了样本标定和模型训练的成本，且能够实现对缺陷的形状、颜色等信息的统计分析。此外，该申请提出了一种多级文本描述加权训练的加权交叉熵损失函数，在更细的粒度上有区别的度量损失，使得模型的训练更加鲁棒容易收敛。

基于上述金属加工多模态缺陷在线检测方法实施例，本申请的另一实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述金属加工多模态缺陷在线检测方法实施例所述的金属加工多模态缺陷在线检测方法。

基于上述金属加工多模态缺陷在线检测方法实施例，本申请的另一实施例提供了一种电子设备，该电子设备包括处理器和存储器，处理器与存储器耦合，存储器用于存储计算机程序，计算机程序被处理器执行，使该电子设备实现如上述金属加工多模态缺陷在线检测方法实施例所述的金属加工多模态缺陷在线检测方法。

基于上述金属加工多模态缺陷在线检测方法实施例，本申请的另一实施例提供了一种计算机程序产品，所述计算机程序产品中包含有指令，当指令在计算机或处理器上运行时，使得计算机或处理器执行如上述金属加工多模态缺陷在线检测方法实施例所述的金属加工多模态缺陷在线检测方法。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本申请所必须的。实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照上述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对上述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。

Claims

1.一种金属加工多模态缺陷在线检测方法，其特征在于，包括：

2.根据权利要求1所述的金属加工多模态缺陷在线检测方法，其特征在于，所述文本描述包括一级文本描述、二级文本描述和三级文本描述，一级文本描述∈二级文本描述∈三级文本描述，所述缺陷图像文本对齐模型使用的加权交叉熵损失函数Loss为：

3.根据权利要求1所述的金属加工多模态缺陷在线检测方法，其特征在于，所述缺陷图像文本对齐模型包括图像编码器和文本编码器，所述图像编码器用于对所述图像样本进行特征提取，并进行压缩编码，所述文本编码器用于对所述文本描述进行压缩编码。

4.根据权利要求3所述的金属加工多模态缺陷在线检测方法，其特征在于，所述缺陷图像文本对齐模型的前向过程包括：

5.根据权利要求4所述的金属加工多模态缺陷在线检测方法，其特征在于，所述根据各个所述索引排序结果及其对应的文本描述级别，判断是否存在具有缺陷的所述图像子块，具体包括：

6.根据权利要求4所述的金属加工多模态缺陷在线检测方法，其特征在于，预定义所述文本描述的类别包括颜色特征和形状特征，所述颜色特征为n1种，所述形状特征为n2种，则所述文本特征向量TX的个数为M个，M＝n1×n2+n1+1+1或者M＝n1×n2+n2+1+1。

7.一种金属加工多模态缺陷在线检测系统，其特征在于，包括：

8.根据权利要求7所述的金属加工多模态缺陷在线检测系统，其特征在于，所述文本描述包括一级文本描述、二级文本描述和三级文本描述，一级文本描述∈二级文本描述∈三级文本描述，所述缺陷图像文本对齐模型使用的加权交叉熵损失函数Loss为：

9.根据权利要求7所述的金属加工多模态缺陷在线检测系统，其特征在于，所述缺陷图像文本对齐模型包括图像编码器和文本编码器，所述图像编码器用于对所述图像样本进行特征提取，并进行压缩编码，所述文本编码器用于对所述文本描述进行压缩编码。

10.根据权利要求9所述的金属加工多模态缺陷在线检测系统，其特征在于，所述缺陷图像文本对齐模型的前向过程包括：