CN113140005A

CN113140005A - 目标对象定位方法、装置、设备及存储介质

Info

Publication number: CN113140005A
Application number: CN202110474194.9A
Authority: CN
Inventors: 杨昆霖; 李昊鹏; 刘诗男; 侯军; 伊帅
Original assignee: Shanghai Sensetime Technology Development Co Ltd
Current assignee: Shanghai Sensetime Technology Development Co Ltd
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-07-20
Anticipated expiration: 2041-04-29
Also published as: CN113140005B

Abstract

本说明书实施例提供一种目标对象的定位方法、装置、电子设备以及计算机可读存储介质。可以从连续采集的多帧图像中获取包括待检测图像在内的至少两帧目标图像，针对待检测图像的特征图中的每一个第一像素，可以基于第一像素所在的像素位置在每帧目标图像的特征图中确定第二像素，根据第一像素与第二像素的相似度确定各第二像素的融合权重，基于该融合权重对第二像素的特征进行融合，得到目标特征图中该像素位置的像素的特征，然后可以基于目标特征图确定目标对象在待检测图像中的位置。通过融合待检测图像与其邻近图像的信息，可以充分利用相邻图像之间的关联，避免因图像中存在运动物体的干扰导致定位精度下降的问题。

Description

目标对象定位方法、装置、设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及目标对象定位方法、装置、设备及存储介质。

背景技术

在安防、监控等领域，通常需要对视频或图像中的目标对象进行定位，然后可以基于定位结果对目标对象进行追踪、计数、行为分析等，准确的定位结果是保证后续处理结果准确度的关键。目前，在对图像中的目标对象进行定位时，大多通过将单帧图像输入到预先训练的神经网络中，通过神经网络预测图像中目标对象的位置。但是，由于图像中可能存在运动的物体，会造成图像出现模糊等不良现象，导致对目标对象的定位造成干扰，影响定位的精度。

发明内容

本公开提供一种目标对象定位方法、装置、设备及存储介质。

根据本公开实施例的第一方面，提供一种目标对象定位方法，所述方法包括：

从连续采集的多帧图像中获取至少两帧目标图像，所述至少两帧目标图像包括待检测图像；

针对所述待检测图像的特征图中的每一个各第一像素，基于所述第一像素所在的像素位置分别在所述至少两帧目标图像的特征图中确定第二像素；

基于所述第二像素与所述第一像素的相似度，确定所述第二像素的融合权重；

基于所述融合权重对所述第二像素进行融合，得到目标特征图中所述像素位置的特征，以确定所述目标特征图；

基于对所述目标特征图的定位预测，确定目标对象在所述待检测图像中的位置。

在一些实施例中，所述第二像素与所述第一像素的相似度越高，所述第二像素的融合权重越大。

在一些实施例中，基于所述第二像素与所述第一像素的相似度，确定所述第二像素的融合权重，包括：

获取表征所述第一像素的特征的第一向量以及表征所述第二像素的特征的第二向量；

对所述第一向量与所述第二向量的乘积进行归一化处理，得到所述第二像素的融合权重。

在一些实施例中，基于所述融合权重对所述第二像素进行融合，得到目标特征图中所述像素位置的特征，以确定所述目标特征图，包括：

获取表征所述第二像素的特征的第二向量；

基于所述融合权重对所述第二向量进行加权求和，得到表征所述目标特征图中所述像素位置的像素的特征的第三向量，以确定所述目标特征图。

在一些实施例中，所述第二像素包括目标像素区域内的像素，所述目标像素区域为所述至少两帧目标图像的特征图中环绕所述像素位置的区域或所述像素位置的邻近区域。

在一些实施例中，所述至少两帧目标图像基于以下方式得到：

对图像采集装置连续采集的多帧图像进行下采样处理；

针对下采样得到的每一帧图像，提取所述图像中包括所述目标对象的图像区域，得到所述至少两帧目标图像中的一帧目标图像。

在一些实施例中，基于对所述目标特征图的定位预测，确定目标对象在所述待检测图像中的位置，包括：

根据所述目标特征图确定所述目标图像对应的定位概率图，所述定位概率图用于指示所述目标图像中的像素点为所述目标对象的关键点的概率，所述关键点用于对所述目标对象进行定位；

基于所述定位概率图确定所述关键点在所述目标图像中的位置，以确定所述目标对象在所述目标图像中的位置。

在一些实施例中，基于所述定位概率图确定所述关键点在所述目标图像中的位置，包括：

对所述定位概率图进行均值池化处理，得到第一概率图；

对所述第一概率图进行最大池化处理，得到第二概率图；

将所述第一概率图和所述第二概率图中概率相同且大于预设阈值的像素点确定为所述关键点。

在一些实施例中，所述方法通过预先训练的神经网络实现，所述神经网络基于以下方式训练得到：

从连续采集的多帧图像中获取至少两帧样本图像，所述至少两帧样本图像中包括携带有标注信息的目标样本图像，所述标注信息用于指示所述目标样本图像中的像素点是否为目标对象的关键点，所述关键点用于定位所述目标对象；

将所述至少两帧样本图像输入至神经网络中，以通过所述神经网络实现以下步骤：

针对所述目标样本图像的特征图中的每一个像素，基于所述像素所在的像素位置分别在所述至少两帧样本图像的特征图中确定目标像素；基于所述目标像素与所述像素的相似度，确定所述目标像素的融合权重；基于所述融合权重对所述目标像素进行融合，得到样本目标特征图中所述像素位置的特征，以确定所述样本目标特征图；基于所述样本目标特征图确定所述样本图像对应的样本定位概率图，其中，所述样本定位概率图用于指示所述目标样本图像中各像素点为目标对象的关键点的概率；

基于所述样本定位概率图与所述目标样本图像对应的真实定位概率图的差异构建损失函数，以所述损失函数作为优化目标对所述神经网络进行训练，其中，所述真实定位概率图基于所述标注信息确定。

根据本公开实施例的第二方面，提供一种目标对象定位装置，所述装置包括：

获取模块，用于从连续采集的多帧图像中获取至少两帧目标图像，所述至少两帧目标图像包括待检测图像；

目标特征图确定模块，用于针对所述待检测图像的特征图中的每一个第一像素，基于所述第一像素所在的像素位置分别在所述至少两帧目标图像的特征图中确定第二像素；基于所述第二像素与所述第一像素的相似度，确定所述第二像素的融合权重；基于所述融合权重对所述第二像素进行融合，得到目标特征图中所述像素位置的特征，以确定所述目标特征图；

定位模块，用于基于对所述目标特征图的定位预测，确定目标对象在所述待检测图像中的位置。

根据本公开实施例的第三方面，提供一种电子设备，所述电子设备包括处理器、存储器、存储于所述存储器可供所述处理器执行的计算机指令，所述处理器执行所述计算机指令时，实现上述第一方面的方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被执行时可实现上述第一方面的方法。

本公开实施例中在对图像中的目标对象进行定位时，可以从连续采集的多帧图像中获取包括待检测图像在内的至少两帧目标图像，针对待检测图像中的每一个第一像素，基于所述第一像素所在的像素位置分别在每帧目标图像的特征图中确定第二像素，根据第一像素与第二像素的相似度确定各第二像素的融合权重，基于该融合权重对第二像素的特征进行融合，得到目标特征图中该像素位置的像素的特征，从而得到目标特征图，通过融合待检测图像与其邻近图像的信息，得到目标特征图，用于对待检测图像中的目标对象定位，可以充分利用图像之间的关联，避免因图像中存在运动物体的干扰导致定位精度下降的问题，以提升定位精度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1是本公开实施例的一种通过神经网络预测人头中心位置的示意图。

图2是本公开实施例的一种目标对象定位方法的示意图。

图3(a)是本公开实施例的一种将多帧特征图融合得到目标特征图的示意图。

图3(b)是本公开实施例的一种将多帧特征图融合得到目标特征图的示意图。

图4是本公开实施例的一种神经网络的结构示意图的示意图。

图5是本公开实施例的一种将多帧特征图融合得到目标特征图的示意图。

图6是本公开实施例的一种神经网络的结构示意图的示意图。

图7是本公开实施例的一种目标对象定位装置的逻辑结构示意图。

图8是本公开实施例的一种电子设备的逻辑结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了使本技术领域的人员更好的理解本公开实施例中的技术方案，并使本公开实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本公开实施例中的技术方案作进一步详细的说明。

在安防、监控等领域，通常需要对视频或图像中的目标对象进行定位，然后可以基于定位结果对目标对象进行跟踪、计数、行为分析等，准确的定位结果是保证后续处理结果准确度的关键。在对图像中的目标对象进行定位时，可以通过对目标对象的关键点进行定位，以实现对目标对象定位，比如，可以预先训练神经网络，神经网络可以输出图像对应的关键点定位图，比如，图像中是关键点的像素点记为1，不是关键点的像素点记为0，然后基于关键点定位图即可以确定目标对象在图像中的位置。以人群定位为例，可以通过对人头中心点的位置进行定位实现人群定位，如图1所示，可以将原始图像输入至神经网络中，神经网络可以直接输出人头中心点定位图，定位图中是人头中心点的像素点记为1，不是人头中心点的像素点记为0。

目前，在对图像中的目标对象进行定位时，通常将单帧图像输入到预先训练的神经网络中，通过神经网络预测图像中目标对象的位置。但是，由于图像中可能存在运动的对象，比如，运动的人或物体，会造成图像出现模糊等不良现象，导致对目标对象的定位造成干扰，严重影响定位精度。

为了提升对图像中的目标对象进行定位时的定位精度，本公开实施例提供了一种目标对象的定位方法，在对待检测图像中的目标对象进行定位时，可以同时结合一帧或者多帧邻近图像对待检测图像中的目标对象进行定位，通过将邻近图像的特征图与待检测图像的特征图进行融合，得到目标特征图，其中，针对待检测图像中的每一像素，可以分别在每帧邻近图像中该像素所在像素位置的邻域内确定一个或者多个像素，并基于这一个或多个像素与待检测图像的像素的相似度确定融合权重，基于融合权重将各帧邻近图像中确定的这一个或多个像素融合，得到目标特征图中该像素位置的特征。然后可以基于对目标特征图的定位预测，确定目标对象在待检测图像中的位置。通过考虑待检测图像与其他邻近图像之间的时序关系，融合多帧图像的信息，以得到目标特征图，可以充分利用图像之间的关联性，避免因图像中存在运动物体的干扰导致定位精度下降的问题，可以提升定位精度。

本公开实施例的目标对象的检测方法可以由各种电子设备执行，比如，可以是笔记本电脑、服务器、手机、平板等电子设备。

本公开实施例的目标对象可以是各种需要从图像中识别定位的对象，比如，目标对象可以是人物、车辆、动物等。通过本公开实施例的方法，可以对图像中的目标对象进行定位，进而可以对图像中的目标对象进行后续的计数、跟踪、行为分析等处理。

具体的，所述方法如图2所示，包括以下步骤：

S202、从连续采集的多帧图像中获取至少两帧目标图像，所述至少两帧目标图像包括待检测图像；

S204、针对所述待检测图像的特征图中的每一个第一像素，基于所述第一像素所在的像素位置分别在所述至少两帧目标图像的特征图中确定第二像素；

S206、基于所述第二像素与所述第一像素的相似度，确定所述第二像素的融合权重；

S208、基于所述融合权重对所述第二像素进行融合，得到目标特征图中所述像素位置的特征，以确定所述目标特征图；

S2010、基于对所述目标特征图的定位预测，确定目标对象在所述待检测图像中的位置。

在步骤S202中，首先，可以从图像采集装置连续采集的多帧图像获取至少两帧目标图像，比如，可以从图像采集装置采集的一段视频的视频帧中获取至少两帧目标图像，其中，该至少两帧目标图像中包括待检测图像，待检测图像为需要对图像中的目标对象进行定位的图像，待检测图像可以为该至少两帧目标图像中任一帧，并可根据需要预先设置，比如，可以是该至少两帧图像中最先采集的一帧图像、或者是中间一帧，或者是最后一帧图像。该至少两帧目标图像可以是连续采集的图像，也可以是不连续采集的图像，当然，为了在使用该至少两帧目标图像中的其他图像辅助待检测图像进行目标对象定位时，可以得到较准确的定位结果，通常其他图像与待检测图像的内容最好不要完全一样，而是存在一定的差异，同时，其他图像与待检测图像的内容也不能相差太大，而是要保证大部分内容一致，所以，其他图像最好是与待检测图像间隔一定的帧数的图像，该间隔的帧数最好控制在一定的范围内，以保证待检测图像与其他图像整体接近但又存在一定差异。

在步骤S204中，在获取到至少两帧目标图像后，针对该至少两帧目标图像中的每一帧目标图像，可以对其进行特征提取，得到每帧目标图像的特征图，从而得到至少两帧目标图像的特征图。其中，对目标图像进行特征提取可以采用预先设置的神经网络实现，也可以采用其他的方式实现，本公开实施例不做限制。其中，每帧特征图可以包括多个通道的特征，不同的通道可以表示图像不同类型的特征，比如，可以是颜色特征、轮廓特征等。在得到该至少两帧目标图像的特征图后，针对待检测图像的特征图中的每一个像素，以下统称为第一像素，可以基于该第一像素所在的像素位置分别在每帧目标图像中确定一个或者多个像素，以下统称为第二像素，其中，第二像素可以是与第一像素关联度较高的像素，比如，可以在每帧目标图像中环绕或邻近该像素位置的邻近区域确定一个或者多个第二像素，该第二像素可以是目标图像中该像素位置的像素，或者是该像素位置及其邻近像素位置上的多个像素。

在步骤S206和步骤S208中，在基于该像素位置分别在每帧目标图像中确定第二像素后，可以基于第二像素与第一像素的相似度确定各个第二像素的融合权重，其中，第二像素与第一像素的相似度可以基于两者的特征的相似度确定。在确定各第二像素的融合权重后，可以基于该融合权重对第二像素进行融合，得到融合后的目标特征图中该像素位置的像素的特征。比如，假设第一像素是待检测图像中第一行第一列的像素，则可以基于上述步骤确定目标特征图中第一行第一列的像素的特征。针对待检测图像中的其他像素位置，也可以依次采用上述方式确定目标特征图中这些像素位置的特征，从而融合得到整张目标特征图。

举个例子，如图3(a)所示，假设有三帧目标图像，分别为图像A、图像B和图像C，其中，图像A为待检测图像，三帧目标图像对应的特征图分别为A’、B’、C’。针对待检测图像的特征图A’中第一行第一列的第一像素(如图中的灰色像素)，可以分别在特征图A’、B’、C’确定第二像素，第二像素可以是特征图A’、B’、C’中第一行第一列的像素，然后可以根据第二像素与第一像素的相似度确定第二像素的融合权重，然后基于各自对应的融合权重将特征图A’、B’、C’中第一行第一列的像素的特征进行融合，得到目标特征图D’第一行第一列的像素的特征。针对目标特征图中其他像素位置的像素的特征，也可以采用上述方法确定，以得到整张目标特征图的特征。

再比如，如图3(b)所示，针对待检测图像的特征图A’中第一行第一列的第一像素(图中的像素P)，也可以是在特征图A’、B’、C’相应的像素位置上各选取一个像素区域(如图中的灰色区域)，将这三个像素区内的像素均作为第二像素，然后基于这三个像素区域中的像素与待检测图像(即A’)中第一行第一列的像素的相似度确定这三个像素区域中的像素的融合权重，然后基于该融合权重将三个像素区域的像素的特征进行融合，得到目标特征图中与像素点P位于同一像素位置的像素的特征。针对目标特征图中其他像素位置的像素的特征，也可以采用上述方法确定，以得到整帧目标特征图的特征。

当然，具体确定第二像素的方式有很多种，在具体应用时，可以基于实际需求设置。

在步骤S2010中，在得到目标特征图后，可以对目标特征图进行定位预测，以根据目标特征图确定目标对象在待检测图像中的位置，从而实现对目标对象进行定位。

在对待检测图像中的目标对象进行定位时，通过融合邻近的多帧图像的信息，得到目标特征图，通过充分利用邻近图像之间的关联性，得到增强的目标特征图，再基于目标特征图对目标对象进行定位，可以使得定位结果更加准确。

在一些实施例中，步骤S202-步骤S2010均可以通过预先训练的神经网络完成，比如，在获取到至少两帧目标图像后，可以将该目标图像输入至预先训练的神经网络中，通过神经网络提取目标图像的特征图，得到至少两帧目标图像，然后神经网络可以针对待检测图像的特征图中的每一个第一像素，基于该第一像素所在的像素位置分别在目标图像的特征图中确定第二像素，并基于第二像素与第一相像素的相似程度确定第二像素对应的融合权重，基于该融合权重将第二像素的特征进行融合，得到目标特征图在该像素位置的特征，通过类似的方法可以得到整张目标特征图，并且神经网络可以基于得到的目标特征图预测目标对象在目标图像中的位置。

在一些实施例中，预先训练的神经网络的结构可以如图4所示，包括第一子网络、第二子网络和第三子网络，第一子网络用于对目标图像(如图中的目标图像1、目标图像2、目标图像3)进行特征提取，以得到每帧目标图像对应的特征图(如图中的特征图1、特征图2、特征图3)，第二子网络用于针对待检测图像(图中的目标图像2)的特征图的每一个第一像素，基于该第一像素所在像素位置分别在目标图像的特征图确定第二像素，并基于第一像素与第二像素的相似程度确定各目标图像的特征图中的第二像素对应的融合权重，基于所述融合权重将对第二像素的特征进行融合，得到目标特征图在该像素位置的特征，通过重复上述步骤，即可以得到整张目标特征图。第三子网路用于基于目标特征图预测目标对象在目标图像中的位置，比如，第三子网络可以基于目标特征图得到待检测图像对应的定位概率图，定位概率图用于指示待检测图像中各像素点为目标对象的关键点的概率，该关键点是可以用于定位该目标对象，然后根据定位概率图确定目标对象在待检测图像中的位置。

在一些实施例中，该神经网络可以通过以下方式训练得到：可以从连续采集的多帧图像中获取至少两帧样本图像，该至少两帧样本图像中包括携带有标注信息的目标样本图像，标注信息可以用于指示目标样本图像中的像素点是否为目标对象的关键点，该关键点可以用于定位目标对象。基于该标注信息可以得到神经网络的真实定位概率图，用于指示目标样本图像中各像素点为关键点的真实概率。然后将该至少两帧样本图像输入至神经网络中，神经网络可以针对目标样本图像的特征图中的每一个像素，基于该像素所在的像素位置分别在该至少两帧样本图像的特征图中确定目标像素，然后可以根据目标像素与该像素的相似度，确定目标像素的融合权重，并且基于确定的融合权重对目标像素进行融合，得到样本目标特征图中该像素位置的特征，以确定该样本目标特征图，然后可以基于样本目标特征图确定样本图像对应的样本定位概率图，其中，样本定位概率图用于指示目标样本图像中各像素点为目标对象的关键点的预测概率，然后可以基于样本定位概率图与目标样本图像对应的真实定位概率图的差异构建损失，比如，可以取两者的交叉熵损失作为损失，并以该损失作为优化目标对神经网络进行训练。

为了根据融合得到的目标特征图可以预测得到更准确的定位结果，在通过至少两帧特征图融合得到目标特征图时，可以基于局部注意力机制确定最终的目标特征图。在基于局部注意力机制确定目标特征图时，可以根据待检测图像的特征图中的某个像素位置的邻近像素区域以及其他目标图像的特征图中该像素位置的邻近区域内的多个像素的特征融合得到目标特征图中该像素位置的特征。通过考虑各像素的邻近区域来进行特征的融合，使得目标特征图中不仅融合了多帧图像之间的时序信息，同时也融合了同一帧图像相邻像素点之间的空间关联信息，提升了定位精度，同时相比于采用全局注意力机制，也可以减少冗余，减少计算量。基于此，在步骤S204中，在基于第一像素所在的像素位置在目标图像的特征图中确定第二像素时，在一些实施例中，可以基于该像素位置分别在各目标图像的特征图中确定目标像素区域，将目标像素区域内的像素作为第二像素。其中，目标像素区域为环绕该像素位置的像素区域，或者该像素位置的邻近区域，以保证第二像素与第一像素的关联性较高。

举个例子，如图5所示，针对待检测图像的特征图中的任一像素位置(如图中的像素位置P)，可以基于该像素位置在每帧目标图像的特征图中确定一个或者多个目标像素区域(如图中的灰色区域)，然后基于目标像素区域内的像素与待检测图像中该像素位置的像素的相似度确定目标像素区域内的像素的融合权重，基于各像素点的融合权重将该至少两帧特征图中的目标像素区域的各像素点的特征融合，得到目标特征图中该像素位置对应的特征。

在一些实施例中，在基于该像素位置在每一帧目标图像的特征图中确定目标像素区域时，如图5所示，可以以该像素位置为中心在特征图中确定一个目标像素区域。比如，可以以该像素位置为中心确定一个N×N的方形区域，或者，也可以以该像素位置为圆心，确定一个圆形区域，只要目标像素区域是环绕该像素位置的邻近区域即可，具体可以根据实际需求设置。当然，目标像素区域也可以不以该像素位置为中心，比如，可以仅包含该像素位置即可。

在步骤S204中，在基于第二像素与第一像素的相似度确定第二像素的融合权重时，在一些实施例中，可以先获取表征第二像素的特征的第二向量，以及表征第一像素的特征第一向量，然后对第二向量与第一向量的乘积进行归一化处理，得到第二像素的融合权重。比如，可以先确定第一向量与第二向量的乘积，再将该乘积输入至softmax函数中，以输出融合权重。

在一些实施例中，第二像素与第一像素的相似程度越高，则第二像素的融合权重越大。由于第二像素与第一像素的相似程度越高，说明两者越有可能表示三维空间中的同一个对象，因而，该第二像素对应的融合权重应当越大。

在步骤S208中，在基于该融合权重对第二像素进行融合，得到目标特征图中该像素位置的特征时，在一些实施例中，可以获取表征该第二像素的特征的第二向量，然后根据各第二像素对应的融合权重对第二向量进行加权求和，以得到表征目标特征图中该像素位置的像素的特征的第三向量，采用类似的方式，可以确定表征目标特征图中其他像素位置的特征的第三向量，以得到整张目标特征图。

当然，在一些实施例中，由于通过目标特征图预测定位结果可以通过神经网络完成，为了尽量减少神经网络的网路参数，融合得到的目标特征图对应的通道数与该至少两帧目标图像的特征图中每帧特征图对应的通道数可以保持一致，避免目标特征图的通道数增大，增加神经网络的网路参数。

在一些实施例中，可以对图像采集装置连续采集的多帧图像进行下采样处理，得到该至少两帧目标图像，比如，假设图像采集装置每秒采集60帧图像，然后可以对该60帧图像进行下采样处理，得到5帧图像，然后将该5帧图像作为目标图像，该5帧图像中的中间帧作为待检测图像。通过对多帧连续采集的图像进行下采样处理，得到目标图像，可以保证目标图像之间大部分场景相似，同时又不会存在一些差异，而不是完全一样。在一些实施例中，为了减小计算量，节约计算资源，提高对图像中的目标对象的定位效率，在从图像采集装置连续采集的多帧图像中得到目标图像时，可以从图像采集装置采集的原始图像中提取出包括目标对象的区域，以得到该目标图像。从而可以将原始图像中不包括目标对象的区域裁减掉，减少定位过程中的计算量。

在一些实施例中，在步骤S2010中，在根据目标特征图确定目标对象在目标图像中的位置时，可以根据目标特征图确定目标图像对应的定位概率图，该定位概率图用于指示目标图像中的像素点为目标对象的关键点的概率，该关键点可以是目标对象中能够标识或者代表该目标对象的一个点，比如，以目标对象为任务为例，关键点可以是人头中心点、人体中心点等，本公开实施例不作限制，通过对目标对象的关键点进行定位，从而可以确定目标对象在图像中的位置。然后可以基于该定位概率图确定关键点在目标图像中的位置，以确定目标对象在目标图像中的位置。

当然，由于神经网络预测的定位概率图可能存在一定的噪声，导致目标图像中的个别像素点的预测概率较大，从而会被误判为关键点，所以，在一些实施中，为了抑制定位概率图中的噪声，可以对定位概率图进行池化处理，以减小噪声的干扰。例如，可以先对定位概率图进行平均池化处理，得到第一概率图，然后可以对定位概率图依次进行平均池化处理和最大池化处理，得到第二概率图(当然也可以直接对第一概率图进行最大池化处理，得到第二概率图)，然后确定第一概率图和第二概率图中概率相同的像素点确定为目标像素点，并判断目标像素点的预测概率是否大于预设阈值，如果是，则将目标像素点确定为关键点。

举个例子，针对神经网络输出的目标图像对应的定位概率图，可以先采用一定尺寸和步长的卷积核(比如，尺寸为3×3，步长为1的卷积核)对定位概率图进行平均池化处理，得到平均池化后的第一概率图，然后采用一定尺寸和步长的卷积核(比如，尺寸为3×3，步长为1的卷积核)对平均池化处理后的第一概率图进一步进行最大池化处理，得到最大池化后的第二概率图，然后比较第一概率图和第二概率图，将两个图中概率一致的点确定为目标像素点，即峰值像素点，然后判定目标像素点是否大于预设阈值，如大于则认为是关键点。通过这种方式，可以消除噪声的影响，比较准确地确定出峰值像素点，从而使得最终确定的关键点更加准确。

在根据关键点的位置确定目标对象在目标图像中位置后，可以将定位结果以关键点定位图的形式输出，比如，可以将目标图像中是关键点的像素点表示为1，非关键点的像素点表示为0，得到关键点定位图，根据关键点定位图可以进一步对目标图像中的目标对象进行计数、跟踪等后续处理。

为了进一步解释本申请实施例中的目标对象的定位方法，以下结合一个具体的实施例加以解释。

在视频监控领域，通常需要对监控视频或图像中的人群进行定位，以便对人群进行后续的计数、跟踪、行为分析等处理，准确的定位结果是保证后续处理结果准确性的关键，目前，通常将单帧待检测图像输入至预先训练的神经网络中，通过神经网络预测人群在图像中的位置。当图像中存在运动对象时，比如，人物运动，可能导致图像模糊，影响最终预测的结果的准确性。基于此，本申请实施例提供了一种基于视频的定位方法，将视频片段中的多帧图像输入至神经网络中，然后基于局部注意力机制，将多帧图像的特征图进行融合，基于融合后的特征图预测人群位置，以提升定位精度。

具体的，该方法包括神经网络训练阶段和神经网络预测阶段。

神经网络训练阶段包括以下步骤：

1、收集若干段人群视频，视频的场景尽可能的多样化，可以包括广场、商场、地铁站、旅游景点等人流量较大的地点。视频收集完毕后，对视频进行每秒5帧的下采样处理，并对下采样得到的视频帧进行裁剪，保留感兴趣的人群区域。然后对裁剪后的视频帧进行标注，标注出每帧视频帧中的人头中心的位置。

由于针对视频帧中的每个人物，用户只标注了一个像素点作为人头中心点，图像中的人头中心点数量较少，不利于卷积神经网络的训练。为了获得更好的神经网络训练结果，针对用户标注的人头中心点，可以将其邻近的一个或多个像素点也标注成人头中心点，得到用于训练神经网络的真实定位图Y。举个例子，对于每一张视频帧I(其中，视频帧I的高和宽分别为H,W)，视频帧中用户标注的人头中心点为

(a_i为人头中心点坐标，假设图中人头数为n)。可以根据公式(1)、公式(2)和公式(3)确定用于训练卷积神经网络的真实定位图Y(其中，真实定位图的高和宽分别为H,W)，

其中：

x为图像中的坐标，*表示卷积操作，K为卷积核，例如，K＝[0,1,0；1,1,1；0,1,0]，n为人头数，ai为人头中心点，δ(·)为多元冲激函数，即：

2、将通过上述方法得到的视频帧中的相邻三帧输入至卷积神经网络中，其中，卷积神经网络的结构如图6所示，包括特征提取模块、局部注意力模块和定位预测模块。输入的相邻三帧图像中，可以预先设置其中的一帧作为待检测图像，比如，将中间帧作为待检测图像。特征提取模块可以是在ImageNet上预训练的VGG-16网络前13层，通过该模块对相邻三帧视频帧进行特征提取后，可以得到三幅512个通道、尺寸为原图1/8大小的特征图。

3、将上述三幅特征图输入至局部注意力模块，其中，局部注意力模块通常有三个输入：查询图(query map)、键图(key map)和值图(value map)。其中，查询图为待检测图像对应的特征图，三幅特征图中的每一幅特征图都可以构成一对键图和值图，也就是说键图和值图为同一帧特征图，因而，一共可以构成3对键图和值图。假设查询图为Q∈R^h×w×c，键图和值图为

Kⁱ,Vⁱ∈R^h×w×c，其中，h表示特征图的高、w表示特征图的宽、c表示特征图的通道数，n表示键图和值图的对数，有三幅特征图，即n为3，i取1-3，R表示特征图对于查询图Q中的每个像素位置(x,y)，生成一个方形邻域N(x,y)＝{(a,b)||x-a|≤k,|y-b|≤k}，其中，(a，b)为方形邻域N中的像素点的坐标，k为方形邻域的半径。然后通过以下公式(4)计算融合后的特征图在该像素位置(x,y)的局部注意力输出，

其中，可以

为表征查询图中像素坐标为(x,y)的像素的特征的向量的转置向量，

为表征键图中像素坐标为(a,b)的像素的特征的向量，通过对这两个向量求内积，可以确定两个像素的相似度，然后进一步通过softmax函数将内积转换成融合权重。

为表征键图中像素坐标为(a,b)的像素的特征的向量，通过对

加权求和，即可以得到表征目标特征图中像素坐标为(x,y)的像素的特征的向量。

重复利用上述公式可以得到所有融合后的特征图所有像素位置的局部注意力输出。局部注意力模块可以输出与原特征图大小(1/8原始图像)相同的融合后的特征图。

4、将上述融合后的特征图输入至定位预测模块。定位预测模块首先使用三层卷积神经网络(卷积核大小为3，空洞率为2，通道数均为512)对融合后的特征图进行进一步特征提取，然后使用三个转置卷积(卷积核尺寸为4，步长为2，通道数分别为256、128、64)将融合后的特征图变换为原图大小，每个转置卷积后接入普通卷积层(卷积核大小为3，空洞率为2，通道数分别为256、128、64)，实现特征提取，最后使用1×1卷积将特征图的通道数转化为1，得到定位概率图

假设预测的定位概率图为

真实定位图为Y。可以根据公式(5)计算定位交叉熵损失

其中，λ为正样本权重，负责平衡正负样本，可以设置为100。

5、得到损失函数后使用随机梯度下降对网络参数进行优化，假设第i步时网络参数为θ_i，则通过以下公式(6)计算得到第i+1步时的网络参数θ_i+1：

其中，γ为学习率，设置为0.0001。不断重复以上步骤至网络参数不再改变。

神经网络预测阶段具体如下：

将待检测的人群视频进行下采样以及裁剪出感兴趣的人群区域等前处理后，将前处理得到的视频帧中的相邻的三帧输入至训练好的卷积神经网络，卷积神经网络输出预测的中间帧的定位概率图。

然后对定位概率图进行以下非极大值抑制步骤，得到最终的关键点定位图：

对预测概率图首先进行核尺寸为3、步长为1的平均池化以抑制噪声，然后对池化后的概率图进行核尺寸为3、步长为1的最大池化操作；然后比较均值池化图和最大池化图，取两帧图中概率相同的像素点作为目标像素点，最后将目标像素点与预设阈值进行比较，大于预设阈值的像素设为1，否则为0，得到最终的关键点定位图。基于关键点定位图，即可以确定人群在图像中的位置。

通过利用多帧视频图像对人群进行定位，可以挖掘视频图像中的时序信息，比以往基于单幅图像的人群定位精度更高。同时，通过使用局部自注意力机制，融合多帧视频图像的特征图的时空信息，捕获视频图像中像素之间的局部关联性，可以挖掘出更加充分的信息，即便在视频图像中存在运动对象的情况下，也可以得到较好的定位效果。

本公开实施例还提供一种目标对象定位装置，如图7所示，所述目标对象定位装置70包括：

获取模块71，用于从连续采集的多帧图像中获取至少两帧目标图像，所述至少两帧目标图像包括待检测图像；

目标特征图确定模块72，用于针对所述待检测图像的特征图中的每一个各第一像素，基于所述第一像素所在的像素位置分别在所述至少两帧目标图像的特征图中确定第二像素；基于所述第二像素与所述第一像素的相似度，确定所述第二像素的融合权重；基于所述融合权重对所述第二像素进行融合，得到目标特征图中所述像素位置的特征，以确定所述目标特征图；

定位模块73，用于基于对所述目标特征图的定位预测，确定目标对象在所述待检测图像中的位置。

在一些实施例中，所述目标特征图确定模块用于基于所述第二像素与所述第一像素的相似度，确定所述第二像素的融合权重时，具体用于：

在一些实施例中，所述目标特征图确定模块用于基于所述融合权重对所述第二像素进行融合，得到目标特征图中所述像素位置的特征，以确定所述目标特征图时，具体用于：

获取表征所述第二像素的特征的第二向量；

对图像采集装置连续采集的多帧图像进行下采样处理；

在一些实施例中，所述定位模块用于基于对所述目标特征图的定位预测，确定目标对象在所述待检测图像中的位置时，具体用于：

在一些实施例中，所述定位模块用于基于所述定位概率图确定所述关键点在所述目标图像中的位置时，具体用于：

对所述定位概率图进行均值池化处理，得到第一概率图；

对所述第一概率图进行最大池化处理，得到第二概率图；

本公开实施例还提供一种电子设备，如图8所示，所述电子设备包括处理器81、存储器82、存储于所述存储器82可供所述处理器81执行的计算机指令，所述处理器81执行所述计算机指令时，实现上述任一实施例中的方法。

本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一实施例所述的方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本说明书实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本说明书实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本说明书实施例的保护范围。

Claims

1.一种目标对象的定位方法，其特征在于，所述方法包括：

针对所述待检测图像的特征图中的每一个第一像素，基于所述第一像素所在的像素位置分别在所述至少两帧目标图像的特征图中确定第二像素；

2.根据权利要求1所述的方法，其特征在于，所述第二像素与所述第一像素的相似度越高，所述第二像素的融合权重越大。

3.根据权利要求1或2所述的方法，其特征在于，基于所述第二像素与所述第一像素的相似度，确定所述第二像素的融合权重，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，基于所述融合权重对所述第二像素进行融合，得到目标特征图中所述像素位置的特征，以确定所述目标特征图，包括：

获取表征所述第二像素的特征的第二向量；

5.根据权利要求1-4任一项所述的方法，其特征在于，所述第二像素包括目标像素区域内的像素，所述目标像素区域为所述至少两帧目标图像的特征图中环绕所述像素位置的区域或所述像素位置的邻近区域。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述至少两帧目标图像基于以下方式得到：

对图像采集装置连续采集的多帧图像进行下采样处理；

7.根据权利要求1-6任一项所述的方法，其特征在于，基于对所述目标特征图的定位预测，确定目标对象在所述待检测图像中的位置，包括：

8.根据权利要求7所述的方法，其特征在于，基于所述定位概率图确定所述关键点在所述目标图像中的位置，包括：

对所述定位概率图进行均值池化处理，得到第一概率图；

对所述第一概率图进行最大池化处理，得到第二概率图；

9.根据权利要求1所述的方法，其特征在于，所述方法通过预先训练的神经网络实现，所述神经网络基于以下方式训练得到：

基于所述样本定位概率图与所述目标样本图像对应的真实定位概率图的差异确定损失，基于所述损失优化所述神经网络，其中，所述真实定位概率图基于所述标注信息确定。

10.一种目标对象的定位装置，其特征在于，所述装置包括：

11.一种电子设备，其特征在于，所述电子设备包括处理器、存储器、存储于所述存储器可供所述处理器执行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-9任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被执行时，实现如权利要求1-9任一项所述的方法。