CN111428807A

CN111428807A - 图像处理方法及计算机可读存储介质

Info

Publication number: CN111428807A
Application number: CN202010261102.4A
Authority: CN
Inventors: 纪元法; 黄铭洁; 孙希延; 陈小毛; 蓝如师
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2020-04-03
Filing date: 2020-04-03
Publication date: 2020-07-17

Abstract

本申请实施例公开了一种图像处理方法及计算机可读存储介质，本申请实施例可以获取待处理的图像，对所述待处理的图像进行特征提取，得到特征图；根据所述特征图获取所述待处理的图像对应的粗分类结果；根据所述特征图获取具有多个特定注意力的注意力特征图；对所述注意力特征图进行数据增强操作，得到数据增强特征图；根据所述数据增强特征图获取所述待处理的图像对应的细分类结果；基于所述粗分类结果和所述细分类结果，确定所述待处理的图像对应的分类结果。该方案基于注意力特征图进行数据增强操作得到的数据增强特征图来获取细分类结果，并结合粗分类结果和细分类结果确定图像最终的分类结果，提高了对图像分类的精准性。

Description

图像处理方法及计算机可读存储介质

技术领域

本申请涉及计算机视觉技术领域，具体涉及一种图像处理方法及计算机可读存储介质。

背景技术

随着作为信息载体的图像越来越丰富，可以根据实际需求对图像进行分类，以确定图像所属的类别，例如，可以对进行具有较大差别类的识别，比如人、车、或狗等不同种类的分类；或者对图像进行大类中的子类类别的识别，比如不同鸟类的识别或者不同车辆的识别等。由此在对图像进行细致的子类划分时，更关注图像中微小且重要的局部特征，使得图像的细粒度分类难度增大。而现有的图像分类方法中，针对子类别间细微的类间差异、较大的类内差异、依赖大量人工标注信息、过拟合导致关键特征丢失、以及数据集样本不够且弱监督学习图像分类容易受背景噪音干扰等，导致对细粒度图像分类结果的精度比较低。

发明内容

本申请实施例提供一种图像处理方法、图像处理设备及计算机可读存储介质，可以提高对图像分类的精准性。

第一方面，本申请实施例提供了一种图像处理方法，包括：

获取待处理的图像，对所述待处理的图像进行特征提取，得到特征图；

根据所述特征图获取所述待处理的图像对应的粗分类结果；

根据所述特征图获取具有多个特定注意力的注意力特征图；

对所述注意力特征图进行数据增强操作，得到数据增强特征图；

根据所述数据增强特征图获取所述待处理的图像对应的细分类结果；

基于所述粗分类结果和所述细分类结果，确定所述待处理的图像对应的分类结果。

第二方面，本申请实施例还提供了一种图像处理设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时执行本申请实施例提供的任一种图像处理方法。

第三方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器加载，以执行本申请实施例提供的任一种图像处理方法。

本申请实施例可以获取待处理的图像，对待处理的图像进行特征提取，得到特征图；然后根据特征图获取待处理的图像对应的粗分类结果，以及根据特征图获取具有多个特定注意力的注意力特征图，对注意力特征图进行数据增强操作，得到数据增强特征图，根据数据增强特征图获取待处理的图像对应的细分类结果；此时可以基于粗分类结果和细分类结果，确定待处理的图像对应的分类结果。该方案基于注意力特征图进行数据增强操作得到的数据增强特征图来获取细分类结果，并结合粗分类结果和细分类结果确定图像最终的分类结果，提高了对图像分类的精准性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的图像处理方法的流程示意图；

图2是本申请实施例提供的图像处理方法的另一流程示意图；

图3是本申请实施例提供的图像处理方法的另一流程示意图；

图4是本申请实施例提供的基于BAP进行图像融合及拼接生成特征矩阵的示意图；

图5是本申请实施例提供的对图像进行注意力区域剪裁及放大操作的示意图；

图6是本申请实施例提供的对图像进行注意力区域下降操作的示意图；

图7是本申请实施例提供的图像处理装置的结构示意图；

图8是本申请实施例提供的图像处理设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本申请的实施例提供了一种图像处理方法及计算机可读存储介质。其中，该图像处理方法可以应用于图像处理设备中，该图像处理设备可以包括服务器和终端等，其中该终端可以包括手机、电脑以及相机等。

请参阅图1，图1是本申请一实施例提供的图像处理方法的流程示意图。该图像处理方法可以包括步骤S101至步骤S106等，具体可以如下：

S101、获取待处理的图像，对待处理的图像进行特征提取，得到特征图。

其中，待处理的图像的类型及其获取方式可以根据实际需要进行灵活设置，例如，待处理的图像中可以包含人、桌子、花、树、鸟、狗或车等物体，可以从服务器预设的图像存储数据库中获取待处理的图像，或者从终端本地存储中中获取待处理的图像，或者通过摄像头采集图像，并将摄像头采集到的图像作为待处理的图像；等等。

在得到待处理的图像后，可以通过残差网络(ResNet，Residual Network)、方向梯度直方图(HOG，Histogram of Oriented Gradient)、或者通过卷积神经网络(CNN，Convolutional Neural Networks)等对待处理的图像进行特征提取，得到特征图，该特征图可以是图像中全局特征对应的特征图，例如，可以对待处理的图像中目标物的特征进行提取，以得到包含目标物特征的特征图，该目标物可以根据实际需要进行灵活设置，例如，该目标物可以是人、桌子、花、树、鸟、狗或车等物体。

需要说明的是，为了提高特征提取的准确性，可以对待处理的图像进行预处理，该预处理可以包括滤波、去噪、或缩放等处理，以降低干扰或增强图像的清晰度等，然后对预处理后的图像进行特征提取，得到特征图。

在一些实施方式中，对待处理的图像进行特征提取，得到特征图包括：通过预设的残差网络对待处理的图像进行特征提取，得到特征图。

为了提高特征提取的精准性，可以通过预设的残差网络对待处理的图像进行特征提取，该预设的残差网络为训练后的残差网络，具体地，可以获取多种类别的训练样本图像，通过训练样本图像对残差网络进行训练，得到训练后的残差网络，该训练后的残差网络对于输入的任意图像可以准确的进行特征提取。此时，可以将待处理的图像输入训练后的残差网络，通过训练后的残差网络对待处理的图像进行特征提取，得到特征图F，其中，F∈R^H×W×N，H、W和N的具体取值可以根据实际需要进行灵活设置，具体取值在此处不作限定。

S102、根据特征图获取待处理的图像对应的粗分类结果。

在得到特征图后，可以进一步进行双线性注意力池化(BAP，Bilinear AttentionPooling)和注意力归一化约束等操作，以获取待处理的图像对应的粗分类结果。该粗分类结果可以是从待处理的数据集(即待处理的图像)中识别出目标物所属小类别的概率，例如从车的数据集中识别出车的型号概率等。

在一些实施方式中，根据特征图获取待处理的图像对应的粗分类结果包括：对特征图进行卷积操作，生成第一注意力映射图；对特征图和第一注意力映射图进行融合操作，得到第一部分特征映射图；根据第一部分特征映射图获取待处理的图像对应的粗分类结果。

具体地，如图2和图3所示，在将图像输入ResNet网络生成特征图F∈R^H×W×N后，可以对特征图进行卷积操作，例如，可以将特征图F经过1×1(即1*1)卷积操作生成第一注意力映射图A₁(即A1)，该第一注意力映射图A₁可以是指包含注意力特征的特征图，其中，A₁∈R^H ^×W×M，特征图F和第一注意力映射图A₁的尺寸均为H×W，特征图F有N个通道，第一注意力映射图A₁有M个通道。然后对特征图F和第一注意力映射图A₁进行融合操作，具体融合方式不作限定，例如，如图4所示，可以将特征图F和第一注意力映射图A₁作为BAP的输入，进行元素点乘操作，得到第一部分特征映射图F_1k，该第一部分特征映射图F_1k可以包括多个，该第一部分特征映射图F_1k可以是指将注意力特征与全局特征(即特征图)融合后得到更多层次的局部特征的图像，该第一部分特征映射图F_1k可以提高图像的表征能力。其中，BAP的结构可以如图4所示，将图4中的注意力映射图A作为第一注意力映射图A₁，以及将部分特征映射图FK作为第一部分特征映射图F_1k，以及将特征矩阵S作为第一特征矩阵S₁(即S1)进行理解。此时可以根据第一部分特征映射图F_1k获取待处理的图像对应的粗分类结果，通过对特征图进行卷积操作及融合操作等，并基于第一部分特征映射图F_1k获取粗分类结果P₁(即P1)，可以提高粗分类结果获取的可靠性。

在一些实施方式中，对特征图和第一注意力映射图进行融合操作，得到第一部分特征映射图包括：将特征图和第一注意力映射图的多个通道特征图按照元素进行点乘操作，得到多个第一部分特征映射图。

其中，第一注意力映射图A₁代表一个特定物体(即目标物)的某个部分，且A₁＝{a₁₁,a₁₂,...,a_1K,...,a_1M}，将特征图F和第一注意力映射图A₁的多个通道特征图a_1k按元素进行点乘操作，得到多个第一部分特征映射图F_1k，即将特征图F与每个通道的第一注意力映射图A₁按元素对应相乘，得到M个第一部分特征映射图F_1k，其中a_k能反映图像中目标物的第k个部位，从而提高了融合效果。

在一些实施方式中，根据第一部分特征映射图获取待处理的图像对应的粗分类结果包括：将第一部分特征映射图进行全局平均池化操作，生成降维后的第一部分特征映射图张量；将降维后的第一部分特征映射张量图中预设部位进行注意力归一化约束，得到归一化后的特征映射图张量；将归一化后的特征映射图张量进行向量拼接，生成第一特征矩阵；根据第一特征矩阵对待处理的图像进行分类，得到粗分类结果。

为了提高粗分类结果获取的准确性，可以将第一部分特征映射图F_1k进行全局平均池化操作，使得每张第一部分特征映射图F_1k最终降维变为一维的张量，得到降维后的第一部分特征映射图张量f_1k，即生成每张第一部分特征映射图F_1k对应的降维后的一维张量。然后，将降维后的第一部分特征映射图张量f_1k中预设部位进行注意力归一化约束，以惩罚同一物体不同特征间的差异，例如，将代表第k个部位的特征经过注意力归一化约束，得到归一化后的特征映射图张量，使得归一化后的特征映射图张量中每个部分特征图靠近其特征中心，该归一化后的特征映射图张量可以包括多张。此时，可以将所有的归一化后的特征映射图张量进行向量拼接，生成第一特征矩阵S₁，该第一特征矩阵S₁可以是N×M特征矩阵，该第一特征矩阵S₁包含所有的部分特征。此时根据第一特征矩阵S₁对待处理的图像进行分类，得到粗分类结果，例如，可以将第一特征矩阵S₁输入支持向量机(SVM，Support VectorMachine)分类器或者softmax分类器等进行分类，得到待处理的图像对应的粗分类结果P₁。

具体地，在将图像输入ResNet网络生成特征图F，以及将特征图F经过1×1卷积操作生成第一注意力映射图A₁后，首先将特征图F和第一注意力映射图A₁进行点乘操作，具体公式如下：

其中，

按元素对应相乘操作，F表示特征图，a_1k表示第一注意力映射图A₁中第k个通道的注意力映射图，F_1k为第一部分特征映射图。

然后，通过局部特征提取函数g(·)进一步提取具有识别力的局部特征，具体公式如下：

f_1k＝g(F_1k) (2)

其中，g(·)为全局平均池化函数，f_1k∈R^1×N为第k个部分特征张量。

由公式(2)可得，每张第一部分特征映射图F_1k最终降维变成一个数，则每组的第一部分特征映射图F_1k就降维成一组一维的张量，该张量即为降维后的第一部分特征映射图张量f_1k，然后将降维后的第一部分特征映射图张量f_1k即代表第k部位的特征进行注意力归一化约束，得到归一化后的特征映射图张量，将归一化后的特征映射图张量进行向量拼接，即可形成第一特征矩阵S₁∈R^M×N，将第一特征矩阵S₁输入softmax分类器进行分类。综上所述，S₁可由以下公式表示：

由上可得，特征图F和第一注意力映射图A₁经过BAP操作后，生成第一特征矩阵S₁，为使得相同物体上同一部位的特征尽可能相似，要惩罚同一物体不同特征间的差异，可以采用类中心损失来监督注意力的学习过程，例如利用注意力中心损失函数对降维后的第一部分特征映射图张量f_1k进行注意力归一化约束，其中，注意力中心损失函数定义如下：

其中，L_A代表注意力中心损失，f_1k代表中第k个部位的特征，c_k代表部位的第k个部分的特征中心，初始化定义为0，然后按照滑动平均公式来更新其值，具体公式如下：

c_k←c_k+β(f_1k-c_k) (5)

其中，β控制部位的全局特征中心c_k的学习速率，通过注意力正则化损失函数，确保归一化后的特征映射图张量中每个部分特征图靠近其特征中心，即每个归一化后的特征映射图张量代表一个独特的物体部位，最后将所有的归一化后的特征映射图张量拼接成的特征矩阵S₁输入分类器softmax进行分类，得到粗分类结果P₁。

S103、根据特征图获取具有多个特定注意力的注意力特征图。

需要说明的是，步骤S102和步骤S103之间的执行顺序可以是，先执行步骤S102，后执行步骤S103；或者，先执行步骤S103，后执行步骤S102；或者，同时执行步骤S102和步骤S103等，本实施例对步骤S102和步骤S103之间的具体执行顺序在此处不作限定。

例如，如图2和图3所示，在得到特征图F后，可以基于特征图F获取具有多个特定注意力的注意力特征图Aq(即A_q)，该注意力特征图Aq可以是包含多个注意力区域的特征图。在一些实施方式中，根据特征图获取具有多个特定注意力的注意力特征图包括：对特征图进行一次挤压多次激发操作，生成具有多个特定注意力的注意力特征图。

具体地，可以采用多重激励模式生成注意力特征图，在提取特征映射图F＝[F₁,F₂,...,F_k,...,F_N]∈R^W×H×N后，将F进行一次挤压多次激发(OSME，One-Squeeze Multi-Excitation)操作，生成多个特定注意力的特征图A_q，尽可能地使具有鉴别部分的有用信息更加显著。

首先将特征图F使用全局平均池化挤压操作，将空间维度W×H的特征映射聚合起来，以生成一个通道级的描述符Z＝[z₁,z₂,...,z_k,...,z_N]，具体公式如下：

其中，F_k(w,h)表示在空间维度W×H上的元素值。

然后，在Z上分别对各激励模块运用独立的门机制，设激励模块个数为q＝1,2,…,q，具体公式如下：

其中，σ代表Sigmoid函数，δ代表ReLu函数，

为权重系数。

此时，特定注意力特征图A_q通过重新权重化原始特征图F的通道生成，具体公式如下：

其中，OSME是一种弱监督下的部件定位的注意力方法，其作用是生成多个特定注意力的特征图，可以通过网络根据损失函数去学习特征图的权重，使得有效的特征图权重大，无效或效果小的特征图权重小，通过这种方式训练网络能够达到更好的结果，同时仅增加了可接受的少量计算代价。换言之，该网络结构就是在通道维度的注意力机制，不同的是采用了多层Excitation结构，产生了多种注意力结构，也就代表提取多个注意力区域传入后期工作进行分析。具体来说，就是通过学习的方式来自动获取到每个特征通道的重要程度，然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。

S104、对注意力特征图进行数据增强操作，得到数据增强特征图。

其中，数据增强是增加数据训练数据量的操作，被用来预防过拟合和提高深度学习网络的表现。数据增强方法可以包括采用随机的方法增广，例如随机图像剪裁，对图像处理时可以采用随机对目标图像进行剪裁，使得可以一定概率能剪裁到需要的目标，为了解决数据增强受到背景等噪声的影响而剪裁掉不需要的目标，本申请实施例可以在网络在训练过程中通过弱监督学习产生一个用来表征目标显著特征的注意力映射，然后利用注意力映射有目标性的指导数据增强，其中包括注意力剪裁和注意力丢弃等。

在生成包含多个特定注意力的注意力特征图A_q后，为了获取更多具有鉴别力的细粒度信息，可以采用数据增强的方式提取局部的细粒度特征以提高分类特征，此时可以对注意力特征图A_q进行数据增强操作，得到数据增强特征图。该数据增强操作可以提高关键特征的明显度，降低不必要特征的影响，进一步提高性能。

在一些实施方式中，对注意力特征图进行数据增强操作，得到数据增强特征图，包括：选取注意力特征图的预设通道进行归一化操作，得到候选数据增强特征图；对候选数据增强特征图进行注意力区域剪裁及放大操作，得到注意力区域剪裁放大后的图像；对候选数据增强特征图进行注意力区域下降操作，得到注意力区域下降后的图像；将注意力区域剪裁放大后的图像和注意力区域下降后的图像上采样放大到数据集图片大小(即待处理的图像的大小)，输入残差网络提取特征生成数据增强特征图。

其中，可以随机选择注意力特征图的预设通道来指导数据增强过程，并将其归一化操作，得到候选数据增强特征图

利用候选数据增强特征图

指导数据增强，将候选数据增强特征图

加上剪裁掩膜，剪裁后放大具有判断特征的部位到图像数据集的尺寸，即经过注意力区域剪裁放大将第k个部位放大到与原始的图像(即待处理的图像)一样的尺寸，从而实现了对候选数据增强特征图

进行注意力区域剪裁及放大操作，得到注意力区域剪裁放大后的图像。

以及，将候选数据增强特征图

加注意力区域下降掩膜，删掉剪裁放大的部分，即经过注意力区域下降，将原始图片剪切掉第k个部分，实现了对候选数据增强特征图

进行注意力区域下降操作，得到注意力区域下降后的图像，从而基于数据增强操作可以鼓励网络提取其他有识别力的部分，图像分类的稳健性和定位的准确性将得到提高。

具体地，由于随机选取图像的某个部分进行增强效率较低，特别是图像片的尺寸较小时，还会引入背景噪声造成干扰，因此可以利用注意力特征图A_q的引导，以更好地过滤背景噪声。本申请实施例采用随机选取注意力特征图A_q的其中一个通道的注意力图A_K来指导数据增强过程，并将其归一化，设第k个候选数据增强特征图为

归一化过程具体公式如下：

在得到候选数据增强特征图

后，可以进行兴趣域选取，放大这部分区域，提取更详细的局部特征。其中，剪裁掩膜的思想是，选取一个阈值θ_c，

像素值

大于θ_c的值置1，小于θ_c置0。由此，设置为1的区域为需重点关注的部分区域。获取剪裁掩膜的具体公式如下：

候选数据增强特征图为

经过剪裁掩膜操作后，剪切得到一个局部的区域，对这块局部区域进行上采样放大到原始的图像大小，也就是放大这部分区域，提取更细节的部分，以将其作为增强后的数据集输入残差网络ResNet再次提取更细节的特征，具体过程如图5所示，图5中通过ResNet网络对图像进行特征提取后，得到注意力特征图，然后对注意力特征图进行剪裁及放大操作，得到局部放大图，通过ResNet网络对局部放大图进行特征提取，得到局部特征图，该局部特征图即为注意力区域剪裁放大后的图像提取的特征图。

注意力正则化损失监督每个注意力图A_k代表相同的第k个部分的特征，而不同的注意力图A_k可能关注相似的部分，为了缓解多个注意力图A_k关注物体同一部位的问题，本申请实施例采用候选数据增强特征图

进行注意力区域下降操作，鼓励模型从多个判别部分中提取特征，注意力区域下降的掩膜的获取与注意力区域剪裁掩膜相反，例如选取一个阈值θ_d，

像素值

大于θ_d的值置0，小于θ_d置1。具体公式如下：

由此可得，该操作将注意力剪裁的区域从原始的图像中删除去，将该图像中剩下的其他部分也作为数据集输入残差网络ResNet提取其他的特征，具体过程如图6所示，图6中通过ResNet网络对图像进行特征提取后，得到注意力特征图，然后对注意力特征图进行注意力掩膜操作，即执行注意力区域下降操作，得到局部删除图，通过ResNet网络对局部删除图进行特征提取，得到注意力区域下降后的图像提取的特征图。

S105、根据数据增强特征图获取待处理的图像对应的细分类结果。

其中，该细分类结果可以是从待处理的图像中识别出目标物所属子类别的概率。在得到数据增强特征图后，可以对数据增强特征图进行BAP操作，获取待处理的图像对应的细分类结果。

在一些实施方式中，根据数据增强特征图获取待处理的图像对应的细分类结果包括：获取数据增强特征图对应的特征映射图；将特征映射图进行卷积操作，生成第二注意力映射图；对特征映射图和第二注意力映射图进行融合操作，得到第二部分特征映射图；根据第二部分特征映射图获取待处理的图像对应的细分类结果。

具体地，如图2和图3所示，经过数据增强操作得到注意力区域剪裁放大后的图像和注意力区域下降后的图像提取特征后的特征图，即为数据增强特征图，此时可以将数据增强特征图作为数据集输入到残差网络ResNet中，提取更深层次的特征，得到特征映射图T。然后对特征映射图T进行卷积操作，例如，可以将特征映射图T经过1*1卷积操作生成具有多个部分的第二注意力映射图A₂，该第二注意力映射图A₁可以是指包含经过数据增强操作后注意力特征的特征图，A₂∈R^H×W×M，将特征映射图T和第二注意力映射图A₂作为BAP的输入，以进行元素点乘、池化、及向量拼接等操作。

其次，对特征映射图T和第二注意力映射图A₂进行融合操作，以将关键特征尽可能融合在一起，具体融合方式不作限定，例如，如图4所示，可以将特征映射图T和第二注意力映射图A₂作为BAP的输入，进行点乘操作，得到第二部分特征映射图F_2k，该第二部分特征映射图F_2k可以包括多个，该第二部分特征映射图可以是指将经过数据增强后的注意力特征与其全局特征(即数据增强特征图)融合后得到更多层次的局部特征的图像。其中，A₂＝{a₂₁,a₂₂,...,a_2K,...,a_2M}，可以将特征映射图T和第二注意力映射图A₂的多个通道特征图a_2k按元素进行点乘操作，得到多个第二部分特征映射图F_2k，从而可以将第二注意力映射图A₂与特征映射图T融合在一起提取更具有细粒度特征的第二部分特征映射图F_2k。

其中，BAP的结构可以如图4所示，将图4中的注意力映射图A作为第二注意力映射图A₂，以及将部分特征映射图FK作为第二部分特征映射图F_2k，以及将特征矩阵S作为第二特征矩阵S₂(即S2)进行理解。此时可以根据第二部分特征映射图F_2k获取待处理的图像对应的细分类结果，通过对特征映射图T进行卷积操作及融合操作等，并基于第二部分特征映射图F_2k获取细分类结果P₂(即P2)，可以提高细分类结果获取的准确靠性。

在一些实施方式中，根据第二部分特征映射图获取待处理的图像对应的细分类结果包括：将第二部分特征映射图进行全局平均池化操作，得到降维后的第二部分特征映射图张量；将降维后的第二部分特征映射图张量进行向量拼接，生成第二特征矩阵；根据第二特征矩阵对待处理的图像进行分类，得到细分类结果。

为了提高细分类结果获取的精准性，可以将第二部分特征映射图F_2k进行全局平均池化操作，使得每张第二部分特征映射图F_2k最终降维变为一维的张量，得到降维后的第二部分特征映射图张量f_2k，即生成每张第二部分特征映射图F_2k对应的降维后的一维张量，该降维后的第二部分特征映射图张量f_2k可以包括多张。此时，可以将所有的降维后的第二部分特征映射图张量f_2k进行向量拼接，生成第二特征矩阵S₂，该第二特征矩阵S₂可以是N×M特征矩阵，然后根据第二特征矩阵S₂对待处理的图像进行分类，得到粗分类结果，例如，可以将第二特征矩阵S₂输入SVM分类器或者softmax分类器等进行分类，得到待处理的图像对应的细分类结果P₂。

具体地，在得到特征映射图T和第二注意力映射图A₂后，首先将特征映射图T和第二注意力映射图A₂进行点乘操作，具体公式如下：

其中，

按元素对应相乘操作，T表示特征映射图，a_2k表示第二注意力映射图A₂中第k个通道的注意力映射图，F_2k为第二部分特征映射图。

f_2k＝g(F_2k) (13)

其中，g(·)为全局平均池化函数，f_2k∈R^1×N为第k个部分特征图张量。

由公式(2)可得，每张第二部分特征映射图F_2k最终降维变成一个数，则每组的第二部分特征映射图F_2k就降维成一组一维的张量，该张量即为降维后的第二部分特征映射图张量f_2k，然后将降维后的第二部分特征映射图张量f_2k进行向量拼接，即可形成第二特征矩阵S₂∈R^M×N，将第二特征矩阵S₂输入softmax分类器进行分类。综上所述，S₂可由以下公式表示：

由上可得，特征映射图F和第二注意力映射图A₂经过BAP操作后，生成第二特征矩阵S₂。最后将第二特征矩阵S₂输入分类器softmax进行分类，得到细分类结果P₂。

本实施例采用基于注意力机制的OSME以及结合数据增强操作，使数据集增加了具有更为细微的可判别图像，并且利用了BAP使更多层次的特征融合在一起，因此网络可以在不需要额外标注信息的情况下聚焦到图像中重要特征的部分，大大提升了识别的准确度，提高了细分类结果获取的精准性，有效提高了分类精度。具体由ResNet提取特征网络、BAP、注意力归一化约束和数据增强操作等部分组成，其中，ResNet作为算法的提取特征网络结构，提取的特征图生成注意力映射图，BAP则是将特征图和注意力映射图作为输入，进行点乘、池化、向量拼接等操作，获取不同层次的特征来增强局部特征；注意力归一化约束将采用类中心损失函数算法来监督注意力的学习过程，使得相同物体上同一部位的特征尽可能相似；数据增强操作则是经过注意力机制的指导，将注意力区域剪裁放大、注意力区域下降使得模型更关注图像的细粒度特征，减少背景噪声的干扰，进一步提高识别精度。

其中，注意力机制的目标是使网络能够更多地关注输入中的相关部分，与传统的注意力机制SENet不同，本申请从SEet延伸，把一次扩展操作换成多次扩展操作，采用了OSME模块，生成了更多具有特定注意力的特征图，获取更多的判别信息，同时不止融合了空间层次的特征，还关注了通道之间的关系，网络可以自动学习到不同通道特征的重要程度。数据增强操作改善了弱监督细粒度图像分类训练数据有限，需要专业的知识和大量的时间标注才能提高精度的缺点，通过注意力区域剪裁放大，摈弃了对图像分类鉴定无关的背景噪声，以增强局部特征的呈现，通过注意力区域下降，以激励模型从多个判别部分中提取特征，进一步提高精度。BAP算法将注意力特征和全局特征融合起来，得到了更多层次的特征，对图像进行了针对性的增强，增强了对细粒度分类任务有判别作用的局部特征的显著性，提高了分类精度。注意力归一化约束惩罚同一物体不同特征间的差异，使得相同物种上同一部位的特征尽可能相似，可明显改善细粒度图像分类精度。

S106、基于粗分类结果和细分类结果，确定待处理的图像对应的分类结果。

在一些实施方式中，基于粗分类结果和细分类结果，确定待处理的图像对应的分类结果包括：将粗分类结果和细分类结果进行相加，得到待处理的图像对应的分类结果。

在得到粗分类结果和细分类结果后，为了提高分类结果确定的便捷性，可以将粗分类结果P₁和细分类结果P₂进行相加，得到待处理的图像对应的分类结果P＝P₁+P₂。该分类结果可以是待处理的图像中目标物对应的分类结果，该目标物对应的分类结果可以是将目标物所属子类别的最高概率对应的子类别，作为该目标物的类别。

在一些实施方式中，基于粗分类结果和细分类结果，确定待处理的图像对应的分类结果包括：设置粗分类结果对应的第一权重值，以及细分类结果对应的第二权重值；根据粗分类结果、第一权重值、细分类结果、以及第二权重值，确定待处理的图像对应的分类结果。

为了提高分类结果确定的灵活性和可靠性，可以设置粗分类结果P₁对应的第一权重值C₁，以及细分类结果P₂对应的第二权重值C₂，然后将粗分类结果P₁和第一权重值C₁相乘，得到第一数值P_1*C₁，以及将细分类结果P₂和第二权重值C₂相乘，得到第二数值P_2*C₂，此时可以将第一数值P_1*C₁和第二数值P_2*C₂之和作为待处理的图像对应的分类结果P＝P_1*C₁+P_2*C₂。

为便于更好的实施本申请实施例提供的图像处理方法，本申请实施例还提供一种基于上述图像处理方法的装置。其中名词的含义与上述图像处理方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图7，图7为本申请实施例提供的图像处理装置的结构示意图，其中该图像处理装置300可以包括提取模块301、第一获取模块302、第二获取模块303、数据增强模块304、第三获取模块305及确定模块306等。

其中，提取模块301，用于获取待处理的图像，对待处理的图像进行特征提取，得到特征图。

第一获取模块302，用于根据特征图获取待处理的图像对应的粗分类结果。

第二获取模块303，用于根据特征图获取具有多个特定注意力的注意力特征图。

数据增强模块304，用于对注意力特征图进行数据增强操作，得到数据增强特征图。

第三获取模块305，用于根据数据增强特征图获取待处理的图像对应的细分类结果。

确定模块306，用于基于粗分类结果和细分类结果，确定待处理的图像对应的分类结果。

可选地，第一获取模块302包括：

第一卷积子模块，用于对特征图进行卷积操作，生成第一注意力映射图；

第一融合子模块，用于对特征图和第一注意力映射图进行融合操作，得到第一部分特征映射图；

第一获取子模块，用于根据第一部分特征映射图获取待处理的图像对应的粗分类结果。

可选地，第一获取子模块具体用于：将第一部分特征映射图进行全局平均池化操作，生成降维后的第一部分特征映射图张量；将降维后的第一部分特征映射图张量中预设部位的特征进行注意力归一化约束，得到归一化后的特征映射图张量；将归一化后的特征映射图张量进行向量拼接，生成第一特征矩阵；根据第一特征矩阵对待处理的图像进行分类，得到粗分类结果。

可选地，第一融合子模块具体用于：将特征图和第一注意力映射图的多个通道特征图按照元素进行点乘操作，得到多个第一部分特征映射图。

可选地，数据增强模块304具体用于：选取注意力特征图的预设通道进行归一化操作，得到候选数据增强特征图；对候选数据增强特征图进行注意力区域剪裁及放大操作，得到注意力区域剪裁放大后的图像；对候选数据增强特征图进行注意力区域下降操作，得到注意力区域下降后的图像；将注意力区域剪裁放大后的图像和注意力区域下降后的图像输入残差网络提取特征后，生成数据增强特征图。

可选地，第三获取模块305包括：

第二获取子模块，用于获取数据增强特征图对应的特征映射图；

第二卷积子模块，用于将特征映射图进行卷积操作，生成第二注意力映射图；

第二融合子模块，用于对特征映射图和第二注意力映射图进行融合操作，得到第二部分特征映射图；

第三获取子模块，用于根据第二部分特征映射图获取待处理的图像对应的细分类结果。

可选地，第三获取子模块具体用于：将第二部分特征映射图进行全局平均池化操作，得到降维后的第二部分特征映射图张量；将降维后的第二部分特征映射图张量进行向量拼接，生成第二特征矩阵；根据第二特征矩阵对待处理的图像进行分类，得到细分类结果。

可选地，提取模块301具体用于：通过预设的残差网络对待处理的图像进行特征提取，得到特征图。

可选地，第二获取模块303具体用于：对特征图进行一次挤压多次激发操作，生成具有多个特定注意力的注意力特征图。

可选地，确定模块306具体用于：将粗分类结果和细分类结果进行相加，得到待处理的图像对应的分类结果；或者，设置粗分类结果对应的第一权重值，以及细分类结果对应的第二权重值，根据粗分类结果、第一权重值、细分类结果、以及第二权重值，确定待处理的图像对应的分类结果。

本申请实施例可以由提取模块301获取待处理的图像，对待处理的图像进行特征提取，得到特征图；然后由第一获取模块302根据特征图获取待处理的图像对应的粗分类结果，以及由第二获取模块303根据特征图获取具有多个特定注意力的注意力特征图，通过数据增强模块304对注意力特征图进行数据增强操作，得到数据增强特征图，由第三获取模块305根据数据增强特征图获取待处理的图像对应的细分类结果；此时可以由确定模块306基于粗分类结果和细分类结果，确定待处理的图像对应的分类结果。该方案基于注意力特征图进行数据增强操作得到的数据增强特征图来获取细分类结果，并结合粗分类结果和细分类结果确定图像最终的分类结果，提高了对图像分类的精准性。

请参阅图8，图8是本申请实施例提供的一种图像处理设备的结构示意性框图。

如图8所示，该图像处理设备400可以包括通过系统总线401连接的处理器402、存储器403和通信接口404，其中，存储器403可以包括非易失性计算机可读存储介质和内存储器。

非易失性计算机可读存储介质可存储计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种图像处理方法。

处理器402用于提供计算和控制能力，支撑整个图像处理设备的运行。

存储器403为非易失性计算机可读存储介质中的计算机程序的运行提供环境，该计算机程序被处理器402执行时，可使得处理器402执行任意一种图像处理方法。

该通信接口404用于通信。本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的图像处理设备400的限定，具体的图像处理设备400可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，该总线401比如为I2C(Inter-integrated Circuit)总线，存储器403可以是Flash芯片、只读存储器(ROM，Read-Only Memory)磁盘、光盘、U盘或移动硬盘等，处理器402可以是中央处理单元(Central Processing Unit，CPU)，该处理器402还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一些实施例中，处理器402用于运行存储在存储器403中的计算机程序，以执行如下步骤：

获取待处理的图像，对待处理的图像进行特征提取，得到特征图；根据特征图获取待处理的图像对应的粗分类结果；根据特征图获取具有多个特定注意力的注意力特征图；对注意力特征图进行数据增强操作，得到数据增强特征图；根据数据增强特征图获取待处理的图像对应的细分类结果；基于粗分类结果和细分类结果，确定待处理的图像对应的分类结果。

可选地，在根据特征图获取待处理的图像对应的粗分类结果时，处理器402还执行：对特征图进行卷积操作，生成第一注意力映射图；对特征图和第一注意力映射图进行融合操作，得到第一部分特征映射图；根据第一部分特征映射图获取待处理的图像对应的粗分类结果。

可选地，在根据第一部分特征映射图获取待处理的图像对应的粗分类结果时，处理器402还执行：将第一部分特征映射图进行全局平均池化操作，生成降维后的第一部分特征映射图张量；将降维后的第一部分特征映射图张量中预设部位的特征进行注意力归一化约束，得到归一化后的特征映射图张量；将归一化后的特征映射图张量进行向量拼接，生成第一特征矩阵；根据第一特征矩阵对待处理的图像进行分类，得到粗分类结果。

可选地，在对特征图和第一注意力映射图进行融合操作，得到第一部分特征映射图时，处理器402还执行：将特征图和第一注意力映射图的多个通道特征图按照元素进行点乘操作，得到多个第一部分特征映射图。

可选地，在对注意力特征图进行数据增强操作，得到数据增强特征图时，处理器402还执行：选取注意力特征图的预设通道进行归一化操作，得到候选数据增强特征图；对候选数据增强特征图进行注意力区域剪裁及放大操作，得到注意力区域剪裁放大后的图像；对候选数据增强特征图进行注意力区域下降操作，得到注意力区域下降后的图像；将注意力区域剪裁放大后的图像和注意力区域下降后的图像输入残差网络提取特征后，生成数据增强特征图。

可选地，在根据数据增强特征图获取待处理的图像对应的细分类结果时，处理器402还执行：获取数据增强特征图对应的特征映射图；将特征映射图进行卷积操作，生成第二注意力映射图；对特征映射图和第二注意力映射图进行融合操作，得到第二部分特征映射图；根据第二部分特征映射图获取待处理的图像对应的细分类结果。

可选地，在根据第二部分特征映射图获取待处理的图像对应的细分类结果时，处理器402还执行：将第二部分特征映射图进行全局平均池化操作，得到降维后的第二部分特征映射图张量；将降维后的第二部分特征映射图张量进行向量拼接，生成第二特征矩阵；根据第二特征矩阵对待处理的图像进行分类，得到细分类结果。

可选地，在对待处理的图像进行特征提取，得到特征图时，处理器402还执行：通过预设的残差网络对待处理的图像进行特征提取，得到特征图。

可选地，在根据特征图获取具有多个特定注意力的注意力特征图时，处理器402还执行：对特征图进行一次挤压多次激发操作，生成具有多个特定注意力的注意力特征图。

可选地，在基于粗分类结果和细分类结果，确定待处理的图像对应的分类结果时，处理器402还执行：将粗分类结果和细分类结果进行相加，得到待处理的图像对应的分类结果；或者，设置粗分类结果对应的第一权重值，以及细分类结果对应的第二权重值；根据粗分类结果、第一权重值、细分类结果、以及第二权重值，确定待处理的图像对应的分类结果。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对图像处理方法的详细描述，此处不再赘述。

本申请的实施例中还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序中包括程序指令，处理器执行程序指令，实现本申请实施例提供的任一项图像处理方法。例如，该计算机程序被处理器加载，可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，计算机可读存储介质可以是前述实施例的图像处理设备的内部存储单元，例如图像处理设备的硬盘或内存。计算机可读存储介质也可以是图像处理设备的外部存储设备，例如图像处理设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

由于该计算机可读存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种图像处理方法，因此，可以实现本申请实施例所提供的任一种图像处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅是本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种图像处理方法，其特征在于，包括：

根据所述特征图获取所述待处理的图像对应的粗分类结果；

根据所述特征图获取具有多个特定注意力的注意力特征图；

2.根据权利要求1所述的图像处理方法，其特征在于，所述根据所述特征图获取所述待处理的图像对应的粗分类结果包括：

对所述特征图进行卷积操作，生成第一注意力映射图；

对所述特征图和所述第一注意力映射图进行融合操作，得到第一部分特征映射图；

根据所述第一部分特征映射图获取所述待处理的图像对应的粗分类结果。

3.根据权利要求2所述的图像处理方法，其特征在于，所述根据所述第一部分特征映射图获取所述待处理的图像对应的粗分类结果包括：

将所述第一部分特征映射图进行全局平均池化操作，生成降维后的第一部分特征映射图张量；

将所述降维后的第一部分特征映射图张量进行注意力归一化约束，得到归一化后的特征映射图张量；

将所述归一化后的特征映射图张量进行向量拼接，生成第一特征矩阵；

根据所述第一特征矩阵对所述待处理的图像进行分类，得到粗分类结果。

4.根据权利要求2所述的图像处理方法，其特征在于，所述对所述特征图和所述第一注意力映射图进行融合操作，得到第一部分特征映射图包括：

将所述特征图和所述第一注意力映射图的多个通道特征图按照元素进行点乘操作，得到多个第一部分特征映射图。

5.根据权利要求1所述的图像处理方法，其特征在于，所述对所述注意力特征图进行数据增强操作，得到数据增强特征图包括：

选取所述注意力特征图的预设通道进行归一化操作，得到候选数据增强特征图；

对所述候选数据增强特征图进行注意力区域剪裁及放大操作，得到注意力区域剪裁放大后的图像；

对所述候选数据增强特征图进行注意力区域下降操作，得到注意力区域下降后的图像；

将所述注意力区域剪裁放大后的图像和所述注意力区域下降后的图像输入残差网络提取特征后，生成数据增强特征图。

6.根据权利要求1所述的图像处理方法，其特征在于，所述根据所述数据增强特征图获取所述待处理的图像对应的细分类结果包括：

获取所述数据增强特征图对应的特征映射图；

将所述特征映射图进行卷积操作，生成第二注意力映射图；

对所述特征映射图和所述第二注意力映射图进行融合操作，得到第二部分特征映射图；

根据所述第二部分特征映射图获取所述待处理的图像对应的细分类结果。

7.根据权利要求6所述的图像处理方法，其特征在于，所述根据所述第二部分特征映射图获取所述待处理的图像对应的细分类结果包括：

将所述第二部分特征映射图进行全局平均池化操作，得到降维后的第二部分特征映射图张量；

将所述降维后的第二部分特征映射图张量进行向量拼接，生成第二特征矩阵；

根据所述第二特征矩阵对所述待处理的图像进行分类，得到细分类结果。

8.根据权利要求1至7任一项所述的图像处理方法，其特征在于，所述对所述待处理的图像进行特征提取，得到特征图包括：

通过预设的残差网络对所述待处理的图像进行特征提取，得到特征图；

所述根据所述特征图获取具有多个特定注意力的注意力特征图包括：

对所述特征图进行一次挤压多次激发操作，生成具有多个特定注意力的注意力特征图。

9.根据权利要求1至7任一项所述的图像处理方法，其特征在于，所述基于所述粗分类结果和所述细分类结果，确定所述待处理的图像对应的分类结果包括：

将所述粗分类结果和所述细分类结果进行相加，得到所述待处理的图像对应的分类结果；或者，

设置所述粗分类结果对应的第一权重值，以及所述细分类结果对应的第二权重值；

根据所述粗分类结果、所述第一权重值、所述细分类结果、以及所述第二权重值，确定所述待处理的图像对应的分类结果。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器加载以执行权利要求1至9任一项所述的图像处理方法。