CN119169056B

CN119169056B - 基于精细化定位的卫星视频目标跟踪方法、装置及设备

Info

Publication number: CN119169056B
Application number: CN202411369549.8A
Authority: CN
Inventors: 杨建伟; 刘雨菡; 胡玉新; 王子铭; 刘闫兴; 周光尧
Original assignee: Aerospace Information Research Institute of CAS
Current assignee: Aerospace Information Research Institute of CAS
Priority date: 2024-09-29
Filing date: 2024-09-29
Publication date: 2025-03-18
Anticipated expiration: 2044-09-29
Also published as: CN119169056A

Abstract

本公开提供了一种基于精细化定位的卫星视频目标跟踪方法、装置、设备和介质，包括：获取卫星视频图像，利用预先训练的目标跟踪模型提取卫星视频图像中模版区域和搜索区域的特征图像；通过目标跟踪模型分别对模版区域和搜索区域的特征图像进行背景抑制，得到背景抑制后的模版特征图和搜索特征图；在模版特征图和搜索特征图之间进行匹配操作，得到响应图；基于响应图，利用目标跟踪模型中的增强头网络，对卫星视频图像中的目标进行定位。

Description

基于精细化定位的卫星视频目标跟踪方法、装置及设备

技术领域

本公开涉及遥感目标跟踪领域或可见光遥感图像处理领域，具体涉及一种基于精细化定位的卫星视频目标跟踪方法、装置、设备及存储介质。

背景技术

卫星视频目标跟踪在重点目标检测、港口管理等军事和民用技术领域均有广泛应用价值。然而，由于卫星所在轨道高度、成像设备分辨率及目标实际尺寸等原因，卫星视频中的目标多表现为特征微弱的小目标，缺乏明显的外观纹理与几何结构信息。此外，卫星视频图像中的目标通常处于复杂背景当中，背景中的相似目标、噪声杂波也会直接对目标跟踪产生直接的影响。当前卫星视频单目标跟踪领域由两种类型的主流方法组成，即基于相关滤波的传统目标跟踪算法和基于卷积神经网络的深度学习目标跟踪方法。但是，深度学习目标跟踪方法针对通用光学目标设计，直接利用常规的分类头和回归头对图像中的目标进行定位，在对卫星视频图像中的微小目标进行定位时，容易出现中心定位不准确、预测边界框不紧致等问题，直接影响最终对于微小的定位效果。同时，现有基于深度学习的目标跟踪网络没有充分考虑复杂背景对于主体目标进行提取的影响。

发明内容

（一）要解决的技术问题

鉴于上述问题，本公开提供了一种基于精细化定位的卫星视频目标跟踪方法、装置、设备及存储介质，以至少部分解决传统卫星视频目标跟踪方法存在的微小目标跟踪定位能力弱、中心定位不准确、预测边界框不紧致及背景干扰等技术问题。

（二）技术方案

本公开提供了一种基于精细化定位的卫星视频目标跟踪方法，包括：获取卫星视频图像，利用预先训练的目标跟踪模型提取所述卫星视频图像中模版区域和搜索区域的特征图像；通过所述目标跟踪模型分别对模版区域和搜索区域的特征图像进行背景抑制，得到背景抑制后的模版特征图和搜索特征图；在所述模版特征图和所述搜索特征图之间进行匹配操作，得到响应图；基于所述响应图，利用所述目标跟踪模型中的增强头网络，对所述卫星视频图像中的目标进行定位。

根据本公开的实施例，所述通过所述目标跟踪模型分别对模版区域和搜索区域的特征图像进行背景抑制，得到背景抑制后的模版特征图和搜索特征图包括：利用所述目标跟踪模型，识别所述模版区域和搜索区域的特征图像中的目标特征信息；基于所述目标特征信息，生成过滤器；通过所述过滤器对所述模版区域和搜索区域的特征图像进行过滤，抑制所述特征图像的背景信息，得到所述模版特征图和所述搜索特征图。

根据本公开的实施例，所述利用所述目标跟踪模型，识别所述模版区域和搜索区域的特征图像中的目标特征信息包括：将所述模版区域或所述搜索区域的特征图像输入所述目标跟踪模型的孪生网络中，得到所述模版区域或所述搜索区域的原始特征图；利用预先训练好的线性可学习参数矩阵，对所述原始特征图进行变换和投影操作，并根据变换后的原始特征图，计算概率分布向量，其中，所述概率分布向量用于表征所述原始特征图中每个像素特征向量的重要性；基于所述概率分布向量，计算所述原始特征图的目标特征信息。

根据本公开的实施例，所述增强头网络的分类分支包括多个注意力头，各所述注意力头至少包括图生成器和图更新器；所述基于所述响应图，利用所述目标跟踪模型中的增强头网络，对所述卫星视频图像中的目标进行定位包括：基于所述响应图，生成第一分类特征图；利用所述图生成器，生成所述第一分类特征图的顶点信息和边信息；利用所述图更新器，对所述顶点信息和边信息进行更新，得到更新后的顶点信息和边信息；将更新后的顶点信息和边信息进行整合，并与所述第一分类特征图连接，得到细化特征图；将各所述注意力头得到的细化特征图进行聚合，得到第二分类特征图。

根据本公开的实施例，所述基于所述响应图，利用所述目标跟踪模型中的增强头网络，对所述卫星视频图像中的目标进行定位还包括：基于所述响应图，生成第一回归特征图，并根据所述第一回归特征图，预测初始边界框；利用所述增强头网络的回归分支引入的渐进式回归机制，捕捉所述初始边界框的几何形状和上下文信息，并学习不同方向上所述第一回归特征图的偏移量；将所述偏移量应用于所述第一回归特征图，生成第二回归特征图。

根据本公开的实施例，所述将所述偏移量应用于所述第一回归特征图，生成第二回归特征图包括：整合所述偏移量形成所述偏移矩阵，并将所述偏移矩阵与所述第一回归特征图逐像素相乘，得到所述第二回归特征图。

根据本公开的实施例，所述基于所述响应图，利用所述目标跟踪模型中的增强头网络，对所述卫星视频图像中的目标进行定位还包括：将所述第二分类特征图与所述第二回归特征图进行融合，得到融合特征图；基于所述第二回归特征图，调整所述初始边界框，并利用调整后的初始边界框对所述融合特征图中的目标进行定位；基于所述第二分类特征图，对定位到的所述目标进行类别识别；将定位并识别的所述目标及对应的调整后的所述边界框输出。

本公开的第二方面提供了一种基于精细化定位的卫星视频目标跟踪装置，包括：提取模块，用于获取卫星视频图像，利用预先训练的目标跟踪模型提取所述卫星视频图像中模版区域和搜索区域的特征图像；抑制模块，用于通过所述目标跟踪模型分别对模版区域和搜索区域的特征图像进行背景抑制，得到背景抑制后的模版特征图和搜索特征图；匹配模块，用于在所述模版特征图和所述搜索特征图之间进行匹配操作，得到响应图；定位模块，用于基于所述响应图，利用所述目标跟踪模型中的增强头网络，对所述卫星视频图像中的目标进行定位。

本公开的第三方面提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个计算机程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行所述的基于精细化定位的卫星视频目标跟踪方法。

本公开的第四方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行所述的基于精细化定位的卫星视频目标跟踪方法。

（三）有益效果

本公开提供的基于精细化定位的卫星视频目标跟踪方法、装置、设备及存储介质，通过对模版区域和搜索区域的特征图像进行背景抑制，即对背景中的无关信息进行抑制，对目标相关信息进行增强，从而增强了目标特征与背景干扰之间的区分度。同时，基于增强头网络分类分支的多个图网络注意力头，实现了对卫星视频弱小目标更加准确的跟踪。此外，使用渐进式回归机制对原始预测的初始边界框进行微调，使得最终得到的目标边界框对于目标具有更加紧致的框定。

附图说明

为了更完整地理解本公开及其优势，现在将参考结合附图的以下描述，其中：

图1示意性示出了本公开实施例提供的SiamCAR目标跟踪网络的整体流程示意图；

图2示意性示出了本公开实施例提供的基于精细化定位的卫星视频目标跟踪方法的流程示意图；

图3示意性示出了本公开实施例提供的目标跟踪模型的整体算法结构示意图；

图4示意性示出了本公开实施例提供的背景抑制模块的结构示意图；

图5示意性示出了本公开实施例提供的多头图注意力精细化模块的结构示意图；

图6示意性示出了根据本公开实施例提供的基于精细化定位的卫星视频目标跟踪装置的结构框图；

图7示意性示出了一种电子设备的硬件结构图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语（包括技术和科学术语）具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

附图中示出了一些方框图和/或流程图。应理解，方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。

因此，本公开的技术可以硬件和/或软件（包括固件、微代码等）的形式来实现。另外，本公开的技术可以采取存储有指令的计算机可读介质上的计算机程序产品的形式，该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。在本公开的上下文中，计算机可读介质可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，计算机可读介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。计算机可读介质的具体示例包括：磁存储装置，如磁带或硬盘（HDD）；光存储装置，如光盘（CD-ROM）；存储器，如随机存取存储器（RAM）或闪存；和/或有线/无线通信链路。

发明人经研究发现，在相关技术中，对于复杂场景下的卫星视频弱小目标进行准确的定位与跟踪是卫星视频目标跟踪领域的关键问题，存在着一定挑战性，当前卫星视频单目标跟踪领域中基于相关滤波的传统目标算法主要在卡尔曼滤波器的基础上，通过利用目标历史轨迹信息或者运动信息进行建模，以增强目标跟踪框架在应对干扰或遮挡等挑战时对目标的持续跟踪能力和框架的稳定性。基于深度学习的目标跟踪算法主要通过孪生网络架构分别对模版区域和搜索区域的特征进行建模，得到模版区域和搜索区域的特征图。随后对两者之间的特征进行匹配工作，匹配后的特征响应图送入头网络进行分类和回归，得到最终的目标位置预测结果。

图1示意性示出了本公开实施例提供的SiamCAR目标跟踪网络的整体流程示意图。

如图1所示，基于深度学习的代表性目标跟踪方法（如SiamCAR）采用了端到端的训练方式，使得网络能够同时优化分类和回归任务。它采用孪生网络结构，分别对输入的模版区域图像和搜索区域图像提取图像特征，其中模版区域图像为初始帧中包含目标的大小为127×127的图像块，搜索区域图像为当前帧中以上一帧预测框中心点为中心，大小为255×255的图像块。通过共享参数的两个卷积神经网络（CNN）分别对目标图像和搜索图像进行特征提取。随后，对提取得到的两个特征图进行深度互相关运算，生成一个响应图。在生成响应图的基础上，SiamCAR的头网络采用分类分支、回归分支以及额外的中心度分支。分类分支区分前景信息和背景信息；回归分支预测目标在搜索图像中的精确位置和尺度，即目标的边界框；中心度分支则输出。网络综合各个分支的结果，得到对于当前帧中目标的最终定位。SiamCAR目标跟踪算法在通用视频目标跟踪中取得了优秀的结果。然而，该方法应用于卫星视频微小目标跟踪时依然存在一些问题。一方面，不同于通用目标跟踪中的目标尺寸特征，卫星视频图像中的目标尺寸小，所包含的有辨识性特征弱，直接影响最终对于微小的定位效果，导致SiamCAR在微小目标跟踪的定位能力上仍然有很大上升空间；另一方面，SiamCAR方法在对图像中的目标特征进行提取的过程中，卫星视频目标的背景中存在着大量的干扰噪声，以及与目标相似的背景干扰物，即卫星视频目标所处的背景通常非常嘈杂，过多的背景噪声影响了网络对于目标位置的精确判断。在观察到上述问题后，本公开实施例在SiamCAR目标跟踪方法的基础上，提出了基于精细化定位的卫星视频目标跟踪方法，旨在解决上述问题。

如图2所示，基于精细化定位的卫星视频目标跟踪方法的流程示意图包括S1~S4。

在操作S1中，获取卫星视频图像，利用预先训练的目标跟踪模型提取所述卫星视频图像中模版区域和搜索区域的特征图像。

在操作S2中，通过所述目标跟踪模型分别对模版区域和搜索区域的特征图像进行背景抑制，得到背景抑制后的模版特征图和搜索特征图。

在操作S3中，在所述模版特征图和所述搜索特征图之间进行匹配操作，得到响应图。

在操作S4中，基于所述响应图，利用所述目标跟踪模型中的增强头网络，对所述卫星视频图像中的目标进行定位。

具体地，本公开实施例提供的目标跟踪模型的整体算法结构如图3所示，在SiamCAR目标跟踪算法的基础上，分别在特征建模和目标定位两个环节进行了相应加强，加强后的算法主要包括背景抑制模块和分类分支的多头图注意力精细化模块以及回归分支的渐进式回归机制。在一些示例性实施例中，目标跟踪模型首先分别提取卫星视频图像中模版区域和搜索区域的特征图像。随后，背景抑制模块分别对提取到的特征图像进行进一步处理，得到背景抑制后的特征图对。再对模版区域特征图（模版特征图）和搜索区域特征图（搜索特征图）之间进行匹配操作，得到响应图。最后，将响应图送入增强后的跟踪头网络（即增强头网络）进行目标定位。

可以理解的是，本公开实施例提供的基于精细化定位的卫星视频目标跟踪方法，在SiamCAR目标跟踪网络的基础上，结合卫星视频目标的特点，提出了一种全新的基于增强头网络和背景抑制的目标跟踪算法，增强了在复杂背景下对于弱小目标的辨别能力，达到更好的卫星视频目标跟踪性能。一方面，区别于SiamCAR目标跟踪算法中采用常规的头网络，本公开实施例对通用目标跟踪算法的头网络进行改进，提出了增强头网络，分别通过整体算法结构中的多头图注意力精细化模块和渐进式回归机制分别增强头网络中的分类分支和回归分支。另一方面，由于SiamCAR目标跟踪算法没有针对卫星视频目标特征弱小的问题对网络进行特定设计，所以本公开实施例利用背景抑制模块对提取到的特征中的背景特征进行抑制，增强了目标本身关键特征信息。

进一步地，所述所述通过所述目标跟踪模型分别对模版区域和搜索区域的特征图像进行背景抑制，得到背景抑制后的模版特征图和搜索特征图包括：利用所述目标跟踪模型，识别所述模版区域和搜索区域的特征图像中的目标特征信息；基于所述目标特征信息，生成过滤器；通过所述过滤器对所述模版区域和搜索区域的特征图像进行过滤，抑制所述特征图像的背景信息，得到所述模版特征图和所述搜索特征图。

具体地，背景抑制模块的结构图如图4所示，背景抑制模块使用特定的网络结构来识别模版区域和搜索区域的特征图像中最重要的部分，即目标特征信息，并将其作为过滤器来过滤原始特征图。当原始特征图中的信息与过滤器中的信息一致时，这部分信息（即目标信息）就会被增强或保留；当原始特征图中的信息与过滤器中的信息不一致时，这部分信息（即背景信息）就会被移除或削弱。

可以理解的是，通过使用过滤器进行背景抑制，能够抑制杂乱的背景干扰，突出原始特征图中的关键部分，从而有助于后续头部网络的分类和回归。

进一步地，所述利用所述目标跟踪模型，识别所述模版区域和搜索区域的特征图像中的目标特征信息包括：将所述模版区域或所述搜索区域的特征图像输入所述目标跟踪模型的孪生网络中，得到所述模版区域或所述搜索区域的原始特征图；利用预先训练好的线性可学习参数矩阵，对所述原始特征图进行变换和投影操作，并根据变换后的原始特征图，计算概率分布向量，其中，所述概率分布向量用于表征所述原始特征图中每个像素特征向量的重要性；基于所述概率分布向量，计算所述原始特征图的目标特征信息。

继续参照图4，在一些示例性实施例中，首先，给定模版区域的特征图像（模板图像）或搜索区域的特征图像（搜索图像），将其输入孪生网络，得到提取的原始特征图。随后，使用线性可学习参数矩阵W_e对原始特征图X_input进行变换和投影，然后将结果输入Softmax函数，得到概率分布向量。这一过程的表达式如下：

其中，σ表示Softmax激活函数。对于X_input中的任意像素特征向量，上述过程的形式表达式为

用于衡量输入原始特征图中每个像素特征向量的重要性。然后使用处理输入原始特征图，处理步骤如下。

在上述公式中，表示原始特征图中最重要的特征，即目标特征信息。

进一步地，X_key被用作一个滤波器，沿着通道维度对原始输入特征图进行滤波处理，具体公式如下：

其中a是一个常数超参数，用于调整X_input和X_key在结果特征图（模版特征图和搜索特征图）Y中的比例。

需要说明的是，可以使用LeakyReLU函数来调整X_key的值。

可以理解的是，通过抑制原始特征图中的背景信息，并保留目标关键部分的特征信息，从而增强了目标特征与背景干扰之间的区分度，为后续头部网络的精确定位提供帮助。此外，背景抑制模块中唯一需要学习的参数是线性可学习参数矩阵，这确保了该模块在不需要复杂结构和学习策略的情况下，就能实现有效的背景抑制。

在本公开实施例中，所述增强头网络的分类分支包括多个注意力头，各所述注意力头至少包括图生成器和图更新器；所述基于所述响应图，利用所述目标跟踪模型中的增强头网络，对所述卫星视频图像中的目标进行定位包括：基于所述响应图，生成第一分类特征图；利用所述图生成器，生成所述第一分类特征图的顶点信息和边信息；利用所述图更新器，对所述顶点信息和边信息进行更新，得到更新后的顶点信息和边信息；将更新后的顶点信息和边信息进行整合，并与所述第一分类特征图连接，得到细化特征图；将各所述注意力头得到的细化特征图进行聚合，得到第二分类特征图。

具体地，为了进一步提高跟踪头网络对小目标的响应能力，本公开实施例提出了多头图注意力精细化模块，该模块的具体结构如图5所示。多头图注意力精细化模块由多个注意力头组成，以创建多个子语义空间，从而允许目标跟踪模型专注于来自不同维度语义空间的信息。对于单个注意力头，它主要由两部分组成：图生成器和图更新器。

示例性地，首先使用邻接矩阵构建像素图P作为分析和优化像素间关系的关键指导。在像素图P中，节点由分类特征图中的点组成，边则连接这些节点，突出了点与点之间的密切关系。

给定第一分类特征图，生成像素图中顶点集V和边集E的表达式如下：

在这种情况下，表示图生成器。顶点集，它包含了第一分类特征图中每个顶点的信息。边集E是通过将第一分类特征图R_cls沿八个方向（上、下、左、右、左上、左下、右上和右下）进行循环移位后堆叠形成的。这意味着每个位置都初始化了当前节点与其八个邻近节点之间的关系信息。在从第一分类特征图R_cls构建顶点集V和边集E之后，随后继续在第二阶段更新这两者。更新公式如下所示：

对于单头图注意力层，顶点特征和边特征首先被连接，然后进行更新。上述操作的表达式如下：

其中Linear表示线性层，Cat表示特征连接操作，而BN和ReLU分别代表批量归一化层和非线性激活层。完整的操作被记作，代表一个完整的线性变换过程。

在更新顶点集V中的顶点信息后，继续更新像素图P中的边集E中的边信息。首先，堆叠的V特征和边E被连接起来。具体公式如下：

其中表示将顶点堆叠8次，以便与边E进行连接。代表两个连续的线性变换过程。第一个线性变换更新边信息，而第二个线性变换降低边特征的维度，得到更新后的边。完成像素图P中顶点和边的更新后，整合它们的特征并将其应用到第一分类特征图R_cls上，得到细化特征图。具体公式如下：

最后，将每个头得到的细化特征图聚合，并将聚合的特征平均，以获得最终的第二分类特征图。

可以理解的是，在本公开实施例中通过采用多头图注意力机制，降低了单个注意力头对噪声的敏感性，并允许目标跟踪模型在不同的子空间中学习并关注不同的关系和模式，从而学习多样化的特征表示。

进一步地，所述基于所述响应图，利用所述目标跟踪模型中的增强头网络，对所述卫星视频图像中的目标进行定位还包括：基于所述响应图，生成第一回归特征图，并根据所述第一回归特征图，预测初始边界框；利用所述增强头网络的回归分支引入的渐进式回归机制，捕捉所述初始边界框的几何形状和上下文信息，并学习不同方向上所述第一回归特征图的偏移量；将所述偏移量应用于所述第一回归特征图，生成第二回归特征图。

具体地，为了使跟踪器获得更紧凑的目标边界框，从而提高跟踪器的性能，本公开实施例在回归分支引入了渐进式回归机制。渐进式回归机制的核心在于基于最初获得的第一回归特征图进一步纠正初始边界框偏移，从而产生更精细的第二回归特征图。

示例性地，使用带有9个固定采样点的星形边界框表示来捕捉初始边界框的几何形状和上下文信息。通过采样点映射到第一回归特征图的相对偏移量（x，y），调整卷积核的采样位置，从而更好地捕捉目标的变形特征。

可以理解的是，通过使用渐进式回归机制对原始预测的初始边界框进行微调，使得最终得到的目标边界框对于目标具有更加紧致的框定。

进一步地，所述将所述偏移量应用于所述第一回归特征图，生成第二回归特征图包括：整合所述偏移量形成所述偏移矩阵，并将所述偏移矩阵与所述第一回归特征图逐像素相乘，得到所述第二回归特征图。

具体地，首先，对于一个最初预测的第一回归特征图，可以使用稀疏动态卷积（SDConv）学习不同方向上的第一回归特征图的偏移量。随后，整合偏移量形成偏移矩阵，并将学习到的偏移矩阵与第一回归特征图逐像素相乘，以获得最终的第二回归特征图。这个过程的正式表达式如下：

进一步地，所述基于所述响应图，利用所述目标跟踪模型中的增强头网络，对所述卫星视频图像中的目标进行定位还包括：将所述第二分类特征图与所述第二回归特征图进行融合，得到融合特征图；基于所述第二回归特征图，调整所述初始边界框，并利用调整后的初始边界框对所述融合特征图中的目标进行定位；基于所述第二分类特征图，对定位到的所述目标进行类别识别；将定位并识别的所述目标及对应的调整后的所述边界框输出。

具体地，首先将第二分类特征图与第二回归特征图进行融合，使得融合后的融合特征图既包含了目标的分类信息，也包含了精确的位置信息。然后，基于第二回归特征图预测的偏移量信息，对初始边界框进行调整，以获得更精确的目标位置。再将调整后的边界框映射到融合特征图上进行目标定位，并提取出目标区域对应的第二分类特征图部分，基于提取出的目标区域对应的第二分类特征图部分，计算出该区域属于各个类别的概率，并确定最终目标的类别。最后，将定位并识别的目标及其对应的调整后的边界框输出。

示例性的，应用本公开实施例提供的基于精细化定位的卫星视频目标跟踪方法，实验得到的跟踪效果如表1所示。

表1跟踪效果消融实验表

可以理解的是，相比于传统的目标跟踪算法，本公开实施例在特征建模过程中增加了背景抑制模块，以获得特征提取模块得到的关键的目标特征信息，并将目标特征信息作为过滤器对背景中的无关信息进行抑制，对目标相关信息进行增强，从而解决传统算法中存在的对周围背景噪声敏感的问题。此外，可以同时避免模块内部过于复杂，更利于算法模型的训练。如表1所示，通过增加背景抑制模块，在卫星视频目标跟踪公开数据集SatSOT的整体跟踪结果上，本公开实施例相比于SiamCAR目标跟踪算法在Precision指标提升2.3个百分点，Success指标提升1.2个百分点。

本公开实施例在跟踪头网络部分增加了分类分支的多头图注意力精细化模块和回归分支的渐进式回归机制。在分类分支中，利用多个注意力头对原始的第一分类特征图进行精细化处理。通过这种设计，本公开实施例可以对第一分类特征图的前景和背景进行更加精确地区分。在回归分支中，针对卫星视频目标尺寸小，轻微的目标边界框预测偏移会导致跟踪性能的大幅下降的问题，本公开实施例通过引入渐进式回归机制对原始预测的目标边界框进行微调，使得最终得到的目标边界框对于目标具有更加紧致的框定。如表1所示，在加入多头图注意力精细化模块和渐进式回归机制后，目标跟踪网络对于卫星视频弱小目标的准确度跟踪能力（Precision分数）和跟踪成功率（Success分数）提高均超过2个百分点。

进一步地，在对于卫星视频弱小目标的整体跟踪效果上，本公开实施例所提出的目标跟踪模型相比于基线模型SiamCAR，在准确度跟踪能力（Precision分数）上的提升为5.2个百分点，在跟踪成功率（Success分数）的提高为3.6个百分点，充分证明了本公开实施例相比于SiamCAR能够实现更加准确的跟踪，并且提供更加紧致的预测边界框。

基于上述基于精细化定位的卫星视频目标跟踪方法，本公开还提供了一种基于精细化定位的卫星视频目标跟踪装置。以下将结合图6对该装置进行详细描述。

如图6所示，该实施例的基于精细化定位的卫星视频目标跟踪装置600包括提取模块601、抑制模块602、匹配模块603及定位模块604。

提取模块601用于获取卫星视频图像，利用预先训练的目标跟踪模型提取所述卫星视频图像中模版区域和搜索区域的特征图像。

抑制模块602用于通过所述目标跟踪模型分别对模版区域和搜索区域的特征图像进行背景抑制，得到背景抑制后的模版特征图和搜索特征图。

匹配模块603用于在所述模版特征图和所述搜索特征图之间进行匹配操作，得到响应图。

定位模块604用于基于所述响应图，利用所述目标跟踪模型中的增强头网络，对所述卫星视频图像中的目标进行定位。

可以理解的是，提取模块601、抑制模块602、匹配模块603及定位模块604可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本发明的实施例，提取模块601、抑制模块602、匹配模块603及定位模块604中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列（FPGA）、可编程逻辑阵列（PLA）、片上系统、基板上的系统、封装上的系统、专用集成电路（ASIC），或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式的适当组合来实现。或者，提取模块601、抑制模块602、匹配模块603及定位模块604中的至少一个可以至少被部分地实现为计算机程序模块，当该程序被计算机运行时，可以执行相应模块的功能。

图7示意性示出了本公开实施例提供的一种电子设备的结构框图。

如图7所示，本实施例中所描述的电子设备，包括：电子设备700包括处理器710、计算机可读存储介质720。该电子设备700可以执行上面参考图2描述的方法，以实现对特定操作的检测。

具体地，处理器710例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器（例如，专用集成电路（ASIC）），等等。处理器710还可以包括用于缓存用途的板载存储器。处理器710可以是用于执行参考图2描述的根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

计算机可读存储介质720，例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括：磁存储装置，如磁带或硬盘（HDD）；光存储装置，如光盘（CD-ROM）；存储器，如随机存取存储器（RAM）或闪存；和/或有线/无线通信链路。

计算机可读存储介质720可以包括计算机程序721，该计算机程序721可以包括代码/计算机可执行指令，其在由处理器710执行时使得处理器710执行例如上面结合图2所描述的方法流程及其任何变形。

计算机程序721可被配置为具有例如包括计算机程序模块的计算机程序代码。例如，在示例实施例中，计算机程序721中的代码可以包括一个或多个程序模块，例如包括721A、模块721B、……。应当注意，模块的划分方式和个数并不是固定的，本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合，当这些程序模块组合被处理器710执行时，使得处理器710可以执行例如上面结合图1~图7所描述的方法流程及其任何变形。

根据本发明的实施例，提取模块601、抑制模块602、匹配模块603及定位模块604中的至少一个可以实现为参考图7描述的计算机程序模块，其在被处理器710执行时，可以实现上面描述的相应操作。

本公开还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

尽管已经参照本公开的特定示例性实施例示出并描述了本公开，但是本领域技术人员应该理解，在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下，可以对本公开进行形式和细节上的多种改变。因此，本公开的范围不应该限于上述实施例，而是应该不仅由所附权利要求来进行确定，还由所附权利要求的等同物来进行限定。

Claims

1.一种基于精细化定位的卫星视频目标跟踪方法，其特征在于，包括：

获取卫星视频图像，利用预先训练的目标跟踪模型提取所述卫星视频图像中模版区域和搜索区域的特征图像；

通过所述目标跟踪模型分别对模版区域和搜索区域的特征图像进行背景抑制，得到背景抑制后的模版特征图和搜索特征图；

在所述模版特征图和所述搜索特征图之间进行匹配操作，得到响应图；

基于所述响应图，利用所述目标跟踪模型中的增强头网络，对所述卫星视频图像中的目标进行定位，所述增强头网络的分类分支包括多个注意力头，各所述注意力头至少包括图生成器和图更新器；

所述基于所述响应图，利用所述目标跟踪模型中的增强头网络，对所述卫星视频图像中的目标进行定位包括：基于所述响应图，生成第一分类特征图；利用所述图生成器，生成所述第一分类特征图的顶点信息和边信息；利用所述图更新器，对所述顶点信息和边信息进行更新，得到更新后的顶点信息和边信息；将更新后的顶点信息和边信息进行整合，并与所述第一分类特征图连接，得到细化特征图；将各所述注意力头得到的细化特征图进行聚合，得到第二分类特征图。

2.根据权利要求1所述的基于精细化定位的卫星视频目标跟踪方法，其特征在于，所述通过所述目标跟踪模型分别对模版区域和搜索区域的特征图像进行背景抑制，得到背景抑制后的模版特征图和搜索特征图包括：

利用所述目标跟踪模型，识别所述模版区域和搜索区域的特征图像中的目标特征信息；

基于所述目标特征信息，生成过滤器；

通过所述过滤器对所述模版区域和搜索区域的特征图像进行过滤，抑制所述特征图像的背景信息，得到所述模版特征图和所述搜索特征图。

3.根据权利要求2所述的基于精细化定位的卫星视频目标跟踪方法，其特征在于，所述利用所述目标跟踪模型，识别所述模版区域和搜索区域的特征图像中的目标特征信息包括：

将所述模版区域或所述搜索区域的特征图像输入所述目标跟踪模型的孪生网络中，得到所述模版区域或所述搜索区域的原始特征图；

利用预先训练好的线性可学习参数矩阵，对所述原始特征图进行变换和投影操作，并根据变换后的原始特征图，计算概率分布向量，其中，所述概率分布向量用于表征所述原始特征图中每个像素特征向量的重要性；

基于所述概率分布向量，计算所述原始特征图的目标特征信息。

4.根据权利要求1所述的基于精细化定位的卫星视频目标跟踪方法，其特征在于，所述基于所述响应图，利用所述目标跟踪模型中的增强头网络，对所述卫星视频图像中的目标进行定位还包括：

基于所述响应图，生成第一回归特征图，并根据所述第一回归特征图，预测初始边界框；

利用所述增强头网络的回归分支引入的渐进式回归机制，捕捉所述初始边界框的几何形状和上下文信息，并学习不同方向上所述第一回归特征图的偏移量；

将所述偏移量应用于所述第一回归特征图，生成第二回归特征图。

5.根据权利要求4所述的基于精细化定位的卫星视频目标跟踪方法，其特征在于，所述将所述偏移量应用于所述第一回归特征图，生成第二回归特征图包括：

整合所述偏移量形成偏移矩阵，并将所述偏移矩阵与所述第一回归特征图逐像素相乘，得到所述第二回归特征图。

6.根据权利要求4所述的基于精细化定位的卫星视频目标跟踪方法，其特征在于，所述基于所述响应图，利用所述目标跟踪模型中的增强头网络，对所述卫星视频图像中的目标进行定位还包括：

将所述第二分类特征图与所述第二回归特征图进行融合，得到融合特征图；

基于所述第二回归特征图，调整所述初始边界框，并利用调整后的初始边界框对所述融合特征图中的目标进行定位；

基于所述第二分类特征图，对定位到的所述目标进行类别识别；

将定位并识别的所述目标及对应的调整后的所述边界框输出。

7.一种基于精细化定位的卫星视频目标跟踪装置，其特征在于，所述装置包括：

提取模块，用于获取卫星视频图像，利用预先训练的目标跟踪模型提取所述卫星视频图像中模版区域和搜索区域的特征图像；

抑制模块，用于通过所述目标跟踪模型分别对模版区域和搜索区域的特征图像进行背景抑制，得到背景抑制后的模版特征图和搜索特征图；

匹配模块，用于在所述模版特征图和所述搜索特征图之间进行匹配操作，得到响应图；

定位模块，用于基于所述响应图，利用所述目标跟踪模型中的增强头网络，对所述卫星视频图像中的目标进行定位，所述增强头网络的分类分支包括多个注意力头，各所述注意力头至少包括图生成器和图更新器；所述基于所述响应图，利用所述目标跟踪模型中的增强头网络，对所述卫星视频图像中的目标进行定位包括：基于所述响应图，生成第一分类特征图；利用所述图生成器，生成所述第一分类特征图的顶点信息和边信息；利用所述图更新器，对所述顶点信息和边信息进行更新，得到更新后的顶点信息和边信息；将更新后的顶点信息和边信息进行整合，并与所述第一分类特征图连接，得到细化特征图；将各所述注意力头得到的细化特征图进行聚合，得到第二分类特征图。

8.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个计算机程序，

其特征在于，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1~6中任一项所述的方法。

9.一种计算机可读存储介质，其上存储有可执行指令，其特征在于，该指令被处理器执行时使处理器执行根据权利要求1~6中任一项所述的方法。