CN120411174B

CN120411174B - 基于视觉特征的物体运动轨迹追踪方法及系统

Info

Publication number: CN120411174B
Application number: CN202510905350.0A
Authority: CN
Inventors: 孙博; 桑震; 魏玲玉
Original assignee: Beijing Hangyu Chuangtong Technology Co ltd
Current assignee: Beijing Hangyu Chuangtong Technology Co ltd
Priority date: 2025-07-02
Filing date: 2025-07-02
Publication date: 2025-11-14
Anticipated expiration: 2045-07-02
Also published as: CN120411174A

Abstract

本发明涉及运动轨迹追踪技术领域，具体涉及基于视觉特征的物体运动轨迹追踪方法及系统。该方法包括：基于物体运动视频流采集连续的目标物体搜索图像信息和目标物体模版图像信息，对模板特征和搜索特征进行信息交互处理；基于时序特征和经过信息交互处理的搜索特征得到待选预测目标物体边界框，基于待选预测目标物体边界框的平均覆盖度判断待选预测目标物体边界框是否满足选取精确要求，提取预测目标物体边界框中目标物体的三维点云数据，对三维点云数据进行逆密度采样处理得到待处理点集，并基于待处理点集生成物体运动轨迹矢量，能够提高物体运动轨迹追踪的精度与鲁棒性。

Description

基于视觉特征的物体运动轨迹追踪方法及系统

技术领域

本发明涉及运动轨迹追踪技术领域，具体涉及基于视觉特征的物体运动轨迹追踪方法及系统。

背景技术

随着计算机视觉技术的快速发展，基于视觉特征的物体运动轨迹追踪方法已成为多个领域的关键技术，包括自动驾驶、智能监控、虚拟现实、人机交互等。

现有追踪方法及其局限性：

帧差法通过比较连续图像帧之间的像素差异来检测运动物体，然而，帧差法对光照变化、背景干扰等因素敏感，容易产生误判，尤其在多目标或复杂背景环境下表现不佳。背景减除法通过建立背景模型并与当前帧进行比较来检测运动物体。该方法在摄像头静止且背景稳定的场景中效果较好，但难以适应光照变化、背景动态更新等复杂情况。此外，背景减除法无法有效区分运动物体与其阴影，导致检测结果不准确。光流法通过分析图像序列中像素的运动矢量来推断物体的运动轨迹。该方法能够处理光照变化和背景干扰等问题，但在物体快速移动或存在运动模糊时，精度会显著下降。此外，光流法的计算复杂度较高，难以满足实时性要求较高的应用场景。

针对上述问题，本发明提出了一种基于视觉特征的物体运动轨迹追踪方法及系统。

发明内容

本发明的目的在于提供一种基于视觉特征的物体运动轨迹追踪方法及系统：解决现有追踪方法中在多目标或复杂背景环境下存在物体运动轨迹追踪精确度低、追踪计算复杂度较高的技术问题。

本发明的目的可以通过以下技术方案实现：

一方面，基于视觉特征的物体运动轨迹追踪方法，方法包括：

基于物体运动视频流采集连续的目标物体搜索图像信息和目标物体模版图像信息，对目标物体搜索图像信息和目标物体模版图像信息进行视觉特征提取，得到模板特征和搜索特征，对模板特征和搜索特征进行信息交互处理；

基于搜索特征和交叉注意力机制提取时序特征，基于时序特征和经过信息交互处理的搜索特征得到待选预测目标物体边界框，基于待选预测目标物体边界框的平均覆盖度判断待选预测目标物体边界框是否满足选取精确要求，若是，则将待选预测目标物体边界框标记为预测目标物体边界框；

提取预测目标物体边界框中目标物体的三维点云数据，对三维点云数据进行逆密度采样处理得到待处理点集，并基于待处理点集生成物体运动轨迹矢量。

进一步地，对目标物体搜索图像信息和目标物体模版图像信息进行视觉特征提取，得到模板特征和搜索特征具体包括以下过程：

目标物体搜索图像信息包括含背景物体和目标物体的图像，目标物体模版图像信息包括目标物体的图像，其中，表示实数集，、分别为图像、图像的高度，、分别为图像、图像的宽度，3表示图像RGB三个颜色通道；

将图像和图像分别分裂成多个非重叠的图像块序列，分别表示为，，其中，、分别为图像块的维度数，表示每个图像块的尺寸大小，将所有图像块进行平展处理，并通过线性映射函数获得图像的嵌入表示，分别表示为、，其中，、为嵌入表示的长度，、为嵌入表示的维度，将搜索图像和模板图像嵌入表示输入到 Transformer编码层中进行特征提取，提取得到的搜索特征和模板特征为，。

进一步地，对模板特征和搜索特征进行信息交互处理具体包括以下过程：

将模板特征和搜索特征通过1×1卷积操作进行维度统一：

；；

其中，、为分别为搜索特征和模板特征维度统一后的特征向量；

基于和生成图结构，其中，为目标物体搜索图像信息中表示目标物体特征信息的节点集，节点集，为节点数，为目标物体搜索图像信息中表示目标物体特征信息的的边集，，边数为；

计算节点在第d 维特征值的大小：；

其中，为节点的特征，表示节点中心性度量；

基于计算节点的属性表示特征的交互概率：；

其中，，为的最大值，为的平均值，为控制特征增强整体大小的超参数；

按重要性程度删除图结构中的边，其中，，得到经过信息交互处理的搜索特征。

进一步地，基于搜索特征和交叉注意力机制提取时序特征具体包括以下过程：

在Transformer解码器中将搜索特征线性投影到键和值向量，分别表示、，并引入可学习的时序信息查询，通过计算搜索特征和可学习的时序信息查询之间的交叉注意力，聚合时序信息，得到时序特征：

；其中，表示的转置，表示时序特征的维度，函数将原始的注意力权重归一化为概率分布，使得这些权重解释为不同位置的相对重要性。

进一步地，基于时序特征和经过信息交互处理的搜索特征得到待选预测目标物体边界框具体包括以下过程：

将经过信息交互处理的搜索特征F、可学习的目标查询和时序特征输入到由交叉注意力和前馈网络组成的目标解码器中，通过计算交叉注意力获得最终的目标特征，表示如下：

；；；

；

；其中，表示特征的维度；表示前馈网络，表示层归一化处理。

进一步地，计算待选预测目标物体边界框的平均覆盖度具体包括以下过程：

；

表示第j个运动视频中第i帧的待选预测目标物体边界框，表示第j个运动视频中第i帧的真实目标边界框，表示运动视频的个数，每个运动视频中的帧数，为指示函数，当待选预测目标物体边界框与真实目标边界框的重叠率大于阈值时取值为1，否则为0。

进一步地，基于待选预测目标物体边界框的平均覆盖度判断待选预测目标物体边界框是否满足选取精确要求具体包括以下过程：

加载平均覆盖度阈值，判断待选预测目标物体边界框的平均覆盖度是否超过平均覆盖度阈值，若是，则判断待选预测目标物体边界框满足选取精确要求，若否，则判断待选预测目标物体边界框不满足选取精确要求。

进一步地，对三维点云数据进行逆密度采样处理得到待处理点集具体包括以下过程：

设置邻域点超参数K，对于输入三维点云集P，求取点云逐点间距离，并依据距离为点集中每个点取K个邻域点作为局部区域；

计算三维点云集P中每个点距离邻域点的平均距离，该距离与局部区域点分布密度呈负相关关系，即局部区域点密度大则计算得到的平均距离小，反之则平均距离大；

基于逐点平均距离，计算采样概率，并根据计算出的概率采样NS个点加入点集PS中，将点集PS记为待处理点集。

进一步地，基于待处理点集生成物体运动轨迹矢量具体包括以下过程：

引入超声探头坐标系，待处理点集中点的坐标位置，以目标物体所在帧的图像的顶部中点为超声探头坐标系的原点，获取待处理点集中点在超声探头坐标系的坐标位置，在超声探头坐标系下各点的唯一坐标为，通过坐标系转换求出该点在坐标系中的三维坐标值，坐标转换公式形如下：

；

其中，为转换矩阵，转换矩阵取决于待处理点集中点之间的相对位置，可自由预设，基于三维坐标值生成物体运动轨迹矢量。

另一方面，基于视觉特征的物体运动轨迹追踪系统，适用于上述任一项所述的基于视觉特征的物体运动轨迹追踪方法，该系统包括：

特征交互模块，用于基于物体运动视频流采集连续的目标物体搜索图像信息和目标物体模版图像信息，对目标物体搜索图像信息和目标物体模版图像信息进行视觉特征提取，得到模板特征和搜索特征，对模板特征和搜索特征进行信息交互处理；

边界框确定模块，用于基于搜索特征和交叉注意力机制提取时序特征，基于时序特征和经过信息交互处理的搜索特征得到待选预测目标物体边界框，基于待选预测目标物体边界框的平均覆盖度判断待选预测目标物体边界框是否满足选取精确要求，若是，则将待选预测目标物体边界框标记为预测目标物体边界框；

运动轨迹追踪模块，用于提取预测目标物体边界框中目标物体的三维点云数据，对三维点云数据进行逆密度采样处理得到待处理点集，并基于待处理点集生成物体运动轨迹矢量。

相比于现有方案，本发明实现的有益效果：

本发明基于物体运动视频流采集连续的目标物体搜索图像信息和目标物体模版图像信息，对模板特征和搜索特征进行信息交互处理；基于时序特征和经过信息交互处理的搜索特征得到待选预测目标物体边界框，基于待选预测目标物体边界框的平均覆盖度判断待选预测目标物体边界框是否满足选取精确要求，提取预测目标物体边界框中目标物体的三维点云数据，对三维点云数据进行逆密度采样处理得到待处理点集，并基于待处理点集生成物体运动轨迹矢量，能够提高物体运动轨迹追踪的精度与鲁棒性。

进一步地，该方法能够有效应对遮挡与复杂场景：

多帧信息融合：方法通过连续帧的图像信息进行分析，能够利用多帧信息来推断目标物体的位置，即使目标物体在部分帧中被遮挡，也能通过其他帧的信息进行补全，从而保持追踪的连续性。

特征丰富性：综合利用多种视觉特征，使得方法在目标物体外观发生变化（如旋转、缩放）或部分遮挡时，仍能保持较高的追踪精度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例的第一种基于视觉特征的物体运动轨迹追踪方法的工作流程图；

图2是本发明实施例的第二种基于视觉特征的物体运动轨迹追踪方法的工作流程图；

图3是本发明实施例的一种基于视觉特征的物体运动轨迹追踪系统的系统框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多示例实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的示例实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、步骤等。在其它情况下，不详细示出或描述公知结构、方法、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。

本实施例提供了基于视觉特征的物体运动轨迹追踪方法，图1是本发明实施例的第一种基于视觉特征的物体运动轨迹追踪方法的工作流程图，如图1所示，该方法包括以下步骤：

步骤S101：基于物体运动视频流采集连续的目标物体搜索图像信息和目标物体模版图像信息；

步骤S102：对目标物体搜索图像信息和目标物体模版图像信息进行视觉特征提取，得到模板特征和搜索特征，对模板特征和搜索特征进行信息交互处理；

步骤S103：基于搜索特征和交叉注意力机制提取时序特征，基于时序特征和经过信息交互处理的搜索特征得到待选预测目标物体边界框；

步骤S104：基于待选预测目标物体边界框的平均覆盖度判断待选预测目标物体边界框是否满足选取精确要求，若是，则将待选预测目标物体边界框标记为预测目标物体边界框；

步骤S105：提取预测目标物体边界框中目标物体的三维点云数据，对三维点云数据进行逆密度采样处理得到待处理点集，并基于待处理点集生成物体运动轨迹矢量。

综上，本发明基于物体运动视频流采集连续的目标物体搜索图像信息和目标物体模版图像信息，对模板特征和搜索特征进行信息交互处理；基于时序特征和经过信息交互处理的搜索特征得到待选预测目标物体边界框，基于待选预测目标物体边界框的平均覆盖度判断待选预测目标物体边界框是否满足选取精确要求，提取预测目标物体边界框中目标物体的三维点云数据，对三维点云数据进行逆密度采样处理得到待处理点集，并基于待处理点集生成物体运动轨迹矢量，能够提高物体运动轨迹追踪的精度与鲁棒性。

在一些实施例中，对目标物体搜索图像信息和目标物体模版图像信息进行视觉特征提取，得到模板特征和搜索特征具体包括以下过程：

值得说明的是，将所有图像块进行平展处理，并通过线性映射函数获得图像的嵌入表示，通过平展和线性映射，图像数据被转换为适合特征提取的向量形式，为后续的视觉特征提取提供了基础，进一步地，线性映射可以帮助去除冗余信息，减少计算复杂度，并在一定程度上抑制噪声，嵌入表示通常是深度学习模型（如卷积神经网络、Transformer等）的输入形式，便于模型进行更复杂的特征学习和模式识别，能够提高物体运动轨迹追踪的计算效率。

在一些实施例中，对模板特征和搜索特征进行信息交互处理具体包括以下过程：

将模板特征和搜索特征通过1×1卷积操作进行维度统一：

；；

计算节点在第d 维特征值的大小：；

其中，为节点的特征，表示节点中心性度量；

基于计算节点的属性表示特征的交互概率：；

综上，对模板特征和搜索特征进行信息交互处理能够减少图像背景对视觉特征提取的影响，提高对目标物体特征的提取的精确性。

在一些实施例中，基于搜索特征和交叉注意力机制提取时序特征具体包括以下过程：

在一些实施例中，基于时序特征和经过信息交互处理的搜索特征得到待选预测目标物体边界框具体包括以下过程：

；；；

；

在一些实施例中，计算待选预测目标物体边界框的平均覆盖度具体包括以下过程：

；

在一些实施例中，图2是本发明实施例的第二种基于视觉特征的物体运动轨迹追踪方法的工作流程图，如图2所示，对三维点云数据进行逆密度采样处理得到待处理点集具体包括以下步骤：

步骤S201：设置邻域点超参数K，对于输入三维点云集P，求取点云逐点间距离，并依据距离为点集中每个点取K个邻域点作为局部区域；

步骤S202：计算三维点云集P中每个点距离邻域点的平均距离，该距离与局部区域点分布密度呈负相关关系，即局部区域点密度大则计算得到的平均距离小，反之则平均距离大；

步骤S203：基于逐点平均距离，计算采样概率，并根据计算出的概率采样NS个点加入点集PS中，将点集PS记为待处理点集。

在一些实施例中，基于待处理点集生成物体运动轨迹矢量具体包括以下过程：

；

在一些实施例中，图3是本发明实施例的一种基于视觉特征的物体运动轨迹追踪系统的系统框图，如图3所示，该系统包括：

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质（例如，软盘、硬盘、磁带）、光介质（例如，DVD）、或者半导体介质。半导体介质可以是固态硬盘。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一些逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.基于视觉特征的物体运动轨迹追踪方法，其特征在于，方法包括：

其中，对目标物体搜索图像信息和目标物体模版图像信息进行视觉特征提取，得到模板特征和搜索特征具体包括以下过程：

将图像和图像分别分裂成多个非重叠的图像块序列，分别表示为，，其中，、分别为图像块的维度数，表示每个图像块的尺寸大小，将所有图像块进行平展处理，并通过线性映射函数获得图像的嵌入表示，分别表示为、，其中，、为嵌入表示的长度，、为嵌入表示的维度，将搜索图像和模板图像嵌入表示输入到 Transformer编码层中进行特征提取，提取得到的搜索特征和模板特征为，；

对模板特征和搜索特征进行信息交互处理具体包括以下过程：

将模板特征和搜索特征通过1×1卷积操作进行维度统一：

；；

基于和生成图结构，其中，为目标物体搜索图像信息中表示目标物体特征信息的节点集，节点集，为节点数，为目标物体搜索图像信息中表示目标物体特征信息的边集，，边数为；

计算节点在第d 维特征值的大小：；

其中，为节点的特征，表示节点中心性度量；

基于计算节点的属性表示特征的交互概率：；

按重要性程度删除图结构中的边，其中，，得到经过信息交互处理的搜索特征；

其中，计算待选预测目标物体边界框的平均覆盖度具体包括以下过程：

；

表示第j个运动视频中第i帧的待选预测目标物体边界框，表示第j个运动视频中第i帧的真实目标边界框，表示运动视频的个数，每个运动视频中的帧数，为指示函数，当待选预测目标物体边界框与真实目标边界框的重叠率大于阈值时取值为1，否则为0；

基于待选预测目标物体边界框的平均覆盖度判断待选预测目标物体边界框是否满足选取精确要求具体包括以下过程：

加载平均覆盖度阈值，判断待选预测目标物体边界框的平均覆盖度是否超过平均覆盖度阈值，若是，则判断待选预测目标物体边界框满足选取精确要求，若否，则判断待选预测目标物体边界框不满足选取精确要求；

2.根据权利要求1所述的基于视觉特征的物体运动轨迹追踪方法，其特征在于，基于搜索特征和交叉注意力机制提取时序特征具体包括以下过程：

3.根据权利要求1所述的基于视觉特征的物体运动轨迹追踪方法，其特征在于，基于时序特征和经过信息交互处理的搜索特征得到待选预测目标物体边界框具体包括以下过程：

；；；

；

4.根据权利要求1所述的基于视觉特征的物体运动轨迹追踪方法，其特征在于，对三维点云数据进行逆密度采样处理得到待处理点集具体包括以下过程：

5.根据权利要求1所述的基于视觉特征的物体运动轨迹追踪方法，其特征在于，基于待处理点集生成物体运动轨迹矢量具体包括以下过程：

；