WO2022188030A1

WO2022188030A1 - 人群密度估计方法、电子设备及存储介质

Info

Publication number: WO2022188030A1
Application number: PCT/CN2021/079755
Authority: WO
Inventors: 胡金星; 杨戈
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2022-09-15
Anticipated expiration: 2023-09-09

Abstract

本申请公开了一种人群密度估计方法。该方法包括：获取多个人群图像；其中，多个人群图像分别由多个图像采集设备采集得到；将多个人群图像输入至人群密度估计网络，以得到与每一人群图像对应的第一人群密度图像；其中，人群密度估计网络包括若干特征提取层和若干特征融合层以及人群密度估计层，若干特征提取层具有不同的网络深度；根据多个图像采集设备的位置和图像采集角度，将多个第一人群密度图像进行组合形成第二人群密度图像，以利用第二人群密度图像进行目标区域的人流量估计。通过上述方式，能够提高对采集设备在不同视角、不同视场远近采集人群图像进行人群密度估计的准确性。

Description

人群密度估计方法、电子设备及存储介质

【技术领域】

本申请涉及人群密度估计技术领域，特别是涉及人群密度估计方法、电子设备及存储介质。

【背景技术】

随着城市现代化建设不断加深，城市人公共空间越发庞大复杂，同时城市人口规模也在不断加大，社会公众参与公共活动越来越多，由此带来城市潜在安全风险以及城市空间优化等问题，比如近来持续的公共卫生安全要求保持社交距离等，要求对人群密度较高精度、及时的感知。随着智慧城市的不断发展建设，监控视频网络系统的广泛部署应用使得我们充分感知公共空间的人群分布成为了可能。

相关技术中，对人群密度估计的精度仍有待提高。

【发明内容】

本申请主要解决的技术问题是提供一种人群密度估计方法、电子设备及存储介质，能够提高对采集设备在不同视角、不同视场远近采集人群图像进行人群密度估计的准确性。

为了解决上述问题，本申请采用的一种技术方案是提供一种人群密度估计方法，该方法包括：获取多个人群图像；其中，多个人群图像分别由多个图像采集设备采集得到；将多个人群图像输入至人群密度估计网络，以得到与每一人群图像对应的第一人群密度图像；其中，人群密度估计网络包括若干特征提取层和若干特征融合层以及人群密度估计层，若干特征提取层具有不同的网络深度；根据多个图像采集设备的位置和图像采集角度，将多个第一人群密度图像进行组合形成第二人群密度图像，以利用第二人群密度图像进行目标区域的人流量估计。

其中，根据多个图像采集设备的位置和图像采集角度，将多个第一人群密度图像进行组合形成第二人群密度图像，包括：根据每一采集设备的位置和图像采集角度确定每一采集设备的透视变换关系；利用透视变换关系将每一第一人群密度图像进行平面投影，得到对应的人群密度平面图像；对多个人群密度平面图像进行归一化；将归一化后的每一人群密度平面图像进行组合形成第二人群密度图像。

其中，根据每一采集设备的位置和图像采集角度确定每一采集设备的透视变换关系，包括：在每一采集设备的位置对应的采集区域中确定至少四个空间坐标；以及在对应采集设备的人群图像中确定与至少四个空间坐标对应的像素点坐标；利用至少四个空间坐标和与至少四个空间坐标对应的像素点坐标确定每一采集设备的透视变换关系。

其中，对多个人群密度平面图像进行归一化，包括：确定归一化权重矩阵；将每一人群密度平面图像与归一化权重矩阵点乘，以对每一人群密度平面图像进行归一化。

其中，确定归一化权重矩阵包括：利用以下公式确定归一化权重矩阵的元素：

其中，(x ₀,y ₀)表示人群图像上的像素点坐标，(x,y)表示人群密度平面图像上与人群图像上的像素点坐标相对应的像素点坐标，

为高斯模糊核中心落在人群图像像素点(x ₀,y ₀)的第一人群密度图像；

表示人群密度平面图像，i,j与m,n分别为人群图像上的像素点坐标和人群密度平面图像上的像素点坐标，w _xy为高斯模糊核中心落在人群图像像素点(x ₀,y ₀)的第一人群密度图像在人群密度平面图像(x,y)处像素点的权重，其中，

像素点(x ₀,y ₀)的像素值在使用高斯模糊计算前像素值为1且其他像素点的像素值为0。

其中，将归一化后的每一人群密度平面图像进行组合形成第二人群密度图像，包括：确定每一人群密度平面图像的加权平均权重；获取每一人群密度平面图像中对应相同平面位置的像素点的第一像素值，得到像素值集合；利用加权平均权重将像素值集合中的第一像素值进行加权求平均，得到第二像素值；将第二像素值作为第二人群密度图像中对应像素点的像素值，以形成第二人群密度图像。

其中，若干特征提取层包括第一特征提取层、第二特征提取层、第三特征提取层和第四特征提取层；其中，第一特征提取层、第二特征提取层、第三特征提取层和第四特征提取层的网络深度依次增加；若干特征融合层包括第一特征融合层、第二特征融合层、第三特征融合层、第四特征融合层和第五特征融合层；其中，第一特征融合层、第二特征融合层、第三特征融合层、第四特征融合层的网络深度相同，第五特征融合层的网络深度大于第一特征融合层的网络深度。

其中，将多个人群图像输入至人群密度估计网络，以得到与每一人群图像对应的第一人群密度图像，包括：将每一人群图像输入至第一特征提取层，以输出第一特征图；将第一特征图输入至第二特征提取层，以输出第二特征图；将第二特征图输入至第三特征提取层，以输出第三特征图，以及将第二特征图输入至第一特征融合层，以输出第一特征融合图；将第三特征图输入至第四特征提取层，以输出第四特征图，以及将第三特征图和第一特征融合图输入至第五特征融合层，以输出第二特征融合图，以及将第三特征图输入至第二特征融合层，以输出第三特征融合图；将第四特征图、第二特征融合图和第三特征融合图输入至第三特征融合层，以输出第四特征融合图；将第四特征融合图输入至第四特征融合层，以输出第五特征融合图；将第五特征融合图输入至人群密度估计层，以输出与每一图像对应的第一人群密度图像。

其中，第一特征提取层的通道数由输入至输出方向依次为3、64、64和64；第二特征提取层的通道数由输入至输出方向依次为64、128、128和128；第三特征提取层的通道数由输入至输出方向依次为128、256、256、256、256、256、256和256；第四特征提取层的通道数由输入至输出方向依次为256、512、512、512、512、512、512和512；其中，第一特征提取层、第二特征提取层、第三特征提取层和第四特征提取层中的池化层的步长为2和感受域为2；第一特征融合层的通道数由输入至输出方向依次为128和16；第二特征融合层的通道数由输入至输出方向依次为16和16；第三特征融合层的通道数由输入至输出方向依次为16和16；第四特征融合层的通道数由输入至输出方向依次为16、16、 16、16、16和16；第五特征融合层的通道数由输入至输出方向依次为256和16。

其中，该方法还包括：在第一特征融合层、第二特征融合层、第三特征融合层、第四特征融合层和第五特征融合层中输入的特征图大小和通道数不一致时，采用双线性差值法对特征图进行上采样和下采样处理，并使用预设卷积层进行处理，以输出统一通道数的特征图。

为了解决上述问题，本申请采用的另一种技术方案是提供一种电子设备，该电子设备包括处理器和处理器连接的存储器；其中，存储器用于存储程序数据，处理器用于执行程序数据，以实现如上述技术方案提供的方法。

为了解决上述问题，本申请采用的另一种技术方案是提供一种计算机可读存储介质，该计算机可读存储介质用于存储程序数据，程序数据在被处理器执行时，用于实现如上述技术方案提供的方法。

本申请的有益效果是：区别于现有技术的情况，本申请的一种人群密度估计方法，该方法包括：获取多个人群图像；其中，多个人群图像分别由多个图像采集设备采集得到；将多个人群图像输入至人群密度估计网络，以得到与每一人群图像对应的第一人群密度图像；其中，人群密度估计网络包括若干特征提取层和若干特征融合层以及人群密度估计层，若干特征提取层具有不同的网络深度；根据多个图像采集设备的位置和图像采集角度，将多个第一人群密度图像进行组合形成第二人群密度图像，以利用第二人群密度图像进行目标区域的人流量估计。通过上述方式，利用特征融合层和不同网络深度的特征提取层对每一人群图像进行不同尺度的特征提取以及融合，以适应不同人群图像的采集高度，以便能够更好的进行特征提取和进一步的人群密度估计，能够提高对采集设备在不同视角、不同视场远近采集人群图像进行人群密度估计的准确性，提升在跨视频人群分布统计中进行人群密度估计的准确性。

【附图说明】

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请提供的人群密度估计方法一实施例流程示意图；

图2是本申请提供的显示界面的调节方法第二实施例流程示意图；

图3是本申请提供的人群密度估计方法另一实施例流程示意图；

图4是本申请提供的步骤33的具体流程示意图；

图5是本申请提供的步骤35的具体流程示意图；

图6是本申请提供的步骤36的具体流程示意图；

图7是本申请提供的人群密度估计方法另一实施例流程示意图；

图8是本申请提供的人群密度估计方法的一应用示意图；

图9是本申请提供的电子设备一实施例的结构示意图；

图10是本申请提供的计算机可读存储介质一实施例的结构示意图。

【具体实施方式】

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是，此处所描述的具体实施例仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

参阅图1，图1是本申请提供的人群密度估计方法一实施例流程示意图。该方法包括：

步骤11：获取多个人群图像。

其中，多个人群图像分别由多个图像采集设备采集得到。可以理解，人群图像中并不一定含有人群。

在一些实施例中，多个图像采集设备可分布于一区域的不同位置，以采集对应位置的人群图像。如该区域为十字路口，参阅图2，将该十字路口的平面图以XOY坐标系进行划分，则在第一象限对应的区域设置采集设备D，在第二象限对应的区域设置采集设备A，在第三象限对应的区域设置采集设备B，在第四象限对应的区域设置采集设备C。采集设备A、采集设备B、采集设备C和采集设备D可分别采集其对应区域的人群图像。

在一些实施例中，步骤11可以是将对多个人群图像进行预处理。具体地，因多个人群图像由不同的采集设备采集得到，则可按照采集设备进行分类，并在分类后按照人群图像的生成时间进行排序。然后遍历每一采集设备对应的人群图像，获取这些人群图像中生成时间相同的多个人群图像。

步骤12：将多个人群图像输入至人群密度估计网络，以得到与每一人群图像对应的第一人群密度图像；其中，人群密度估计网络包括若干特征提取层和若干特征融合层以及人群密度估计层，若干特征提取层具有不同的网络深度。

在一些实施例中，每一人群图像可对应输入一人群密度估计网络，以得到与该人群图像对应的第一人群密度图像。

在一些实施例中，将多个人群图像进行排序，然后将多个人群图像按照排序的先后顺序依次输入至人群密度估计网络，以使人群密度估计网络输出与每一人群图像对应的第一人群密度图像。

下面介绍人群密度轨迹网络对人群图像的处理过程：

首先，人群图像输入至若干特征提取层中网络深度最小的特征提取层，以在该特征提取层进行对应网络深度的特征提取，得到第一目标特征图；然后将该第一目标特征图输入至下一特征提取层，以在下一特征提取层中得到第二目标特征图，将第二目标特征图分别输入至下一特征提取层和特征融合层，以得到第三目标特征图和第一目标融合图，按照此逻辑，根据特征提取层和特征融合层的数量进行对应的特征提取和特征融合。将最后一个特征融合层输出的目标融合图输入至人群密度估计层，得到与每一人群图像对应的第一人群密度图像。

在一些实施例中，每一特征提取层包括若干卷积层。每一特征融合层包括若干卷积层以及人群密度估计层包括若干卷积层。其中，每一卷积层后具有激活层。

在一应用场景中，以若干卷积层(每层卷积层后具有ReLu激活层)作为一个特征提取层，以若干卷积层作为一个特征融合层(每层卷积层后具有ReLu激活层)，以若干卷积层作为人群密度估计层(每层卷积层后具有ReLu激活层)以组成人群密度估计网络。

进一步说明，每一特征提取层具有对特征图下采样的功能即特征提取层输出的目标特征图的宽和高降低1/2倍大小，可通过最大池化层或卷积层实现。其中，人群密度估计网络分N个阶段计算输出第一人群密度图像；除第一个阶段的特征提取层的输入为人群图像，每个阶段的特征提取层只输入上一个阶段的特征提取层输出的目标特征图；每个阶段的特征融合层同时输入上一个阶段的特征提取层和特征融合层输出的目标特征图；每个特征融合层以4x、8x分别表示其处理输入大小为1/4、1/8图像大小的目标特征图；每个特征融合层的输入与处理的特征图大小不一致时，采用双线性插值对输入的目标特征图进行上采样和下采样，否则直接复制输入。

更进一步说明，在一些实施例中，人群密度估计网络的第一个阶段输入图像依次由两个特征提取层串联构成，第二个阶段由一个4x特征融合层和一个特征提取层并列构成，第三个阶段由一个4x特征融合层、一个8x特征融合层和一个特征提取层并列构成，第四个阶段由一个4x特征融合层、一个8x特征融合层、一个16x特征融合层和一个特征提取层并列构成，第五个阶段由一个4x特征融合模块和人群密度估计层串联构成，特别地第四个阶段的4x特征融合模块是以若干并列的不同分离率(Dilation Rate)的卷积层作为一个特征融合层实现多尺度特征融合(每层卷积层后具有ReLu激活层)。关键地，一个特征融合层同时接受多个特征融合层和特征提取层的输出作为输入时，采用加法将特征图逐元素相加再输入特征融合层进行计算。

第一、二、三和四阶段的网络构成多尺度特征的融合和提取，以提取出多尺度的隐藏特征；第五个阶段的4x特征融合层构成多尺度感受域卷积网络模块，进一步融合或变换多尺度的隐藏特征；第五个阶段的人群密度估计层输入由多尺度感受域卷积网络模块形成的特征融合层所输出的多尺度隐藏特征，以进行计算输出第一人群密度图像。

步骤13：根据多个图像采集设备的位置和图像采集角度，将多个第一人群密度图像进行组合形成第二人群密度图像，以利用第二人群密度图像进行目标区域的人流量估计。

在一些实施例中，因每一采集设备安装的位置和对图像采集的角度不同，则根据每一采集设备的位置和图像采集角度对第一人群密度图像进行坐标转换，将第一人群密度图像转换为采集设备所采集区域的平面图像。此时会得到多个对应采集设备所采集区域的平面图像，然后将这些平面图像进行处理得到第二人群密度图像，此时，可以利用第二人群密度图像进行多个采集设备所在的目标区域的人流量估计。

如，在得到第二人群密度图像时，将该第二人群密度图像中表示人群的像素区域利用特定的颜色表示。其中，可根据像素区域中对像素点设置不同的像素值，以表示不同的人群密度。

在本实施例中，通过获取多个人群图像；其中，多个人群图像分别由多个图像采集设备采集得到；将多个人群图像输入至人群密度估计网络，以得到与每一人群图像对应的第一人群密度图像；其中，人群密度估计网络包括若干特征提取层和若干特征融合层以及人群密度估计层；若干特征提取层具有不同的网络深度；根据多个图像采集设备的位置和图像采集角度，将多个第一人群密度图像进行组合形成第二人群密度图像，以利用第二人群密度图像进行目标区域的人流量估计。通过上述方式，利用特征融合层和不同网络深度的特征提取层对每一人群图像进行不同尺度的特征提取以及融合，以适应不同人群图像的采集高度，以便能够更好的进行特征提取和进一步的人群密度估计，能够提高对采集设备在不同视角、不同视场远近采集人群图像进行人群密度估计的准确性，提升在跨视频人群分布统计中进行人群密度估计的准确性。

参阅图3，图3是本申请提供的人群密度估计方法另一实施例流程示意图。该方法包括：

步骤31：获取多个人群图像。

步骤32：将多个人群图像输入至人群密度估计网络，以得到与每一人群图像对应的第一人群密度图像；其中，人群密度估计网络包括若干特征提取层和若干特征融合层以及人群密度估计层，若干特征提取层具有不同的网络深度。

步骤31-32与上述实施例具有相同或相似的技术方案，这里不做赘述。

步骤33：根据每一采集设备的位置和图像采集角度确定每一采集设备的透视变换关系。

因每一采集设备的位置和图像采集角度的不同，则每一采集设备对应一透视变换关系。可根据采集设备采集的区域的空间坐标和采集角度，计算的采集设备采集的人群图像与该区域空间坐标之间的透视变换关系。

在一些实施例中，参阅图4，步骤33可以是如下流程：

步骤331：在每一采集设备的位置对应的采集区域中确定至少四个空间坐标；以及在对应采集设备的人群图像中确定与至少四个空间坐标对应的像素点坐标。

该至少四个空间坐标可以是该采集设备的位置对应的采集区域中的标志性建筑的空间坐标。因建筑的坐标在该采集区域相对移动的人群是固定的，则以建筑坐标的空间坐标和在人群图像中的像素点坐标作为相对应的参考坐标，执行步骤332。

步骤332：利用至少四个空间坐标和与至少四个空间坐标对应的像素点坐标确定每一采集设备的透视变换关系。

具体地，可以利用至少四个空间坐标和与至少四个空间坐标对应的像素点坐标确实透视变换矩阵，将此透视变换矩阵作为每一采集设备的透视变换关系。

如，可以利用以下公式计算得到透视变换矩阵：

[x',y',w']＝[x,y,w]*A；

其中，[x',y',w']是变换后的坐标，即采集区域的空间坐标，[x,y,w]是变换前的坐标，即人群图像中的像素点坐标，A是透视变换矩阵。

将上述的至少四个空间坐标和与至少四个空间坐标对应的像素点坐标对应的代入上述公式，则可得到透视变换矩阵A中的参数a ₁₁、a ₁₂、a ₁₃、a ₂₁、a ₂₂、a ₂₃、a ₃₁、a ₃₂和a ₃₃。

其中，在进行二维转换时，在使用上述公式时，可将坐标中的w'和w设置为1。

步骤34：利用透视变换关系将每一第一人群密度图像进行平面投影，得到对应的人群密度平面图像。

在得到透视变换关系后，则将第一人群密度图像中的每一像素点与透视变换关系进行计算，相当于进行平面投影，得到其对应于采集区域的空间坐标，然后以这些空间坐标形成对应的人群密度平面图像。

步骤35：对多个人群密度平面图像进行归一化。

在一些实施例中，参阅图5，步骤35可以是如下流程：

步骤351：确定归一化权重矩阵。

由于通过透视变换将第一人群密度图像投影到平面上会带来畸变，则需要将其进行归一化。

其中，确定归一化权重矩阵包括：利用以下公式确定归一化权重矩阵：

步骤352：将每一人群密度平面图像与归一化权重矩阵点乘，以对每一人群密度平面图像进行归一化。

将人群密度平面图上的每一像素点与归一化权重矩阵点乘，得到对应的像素值，基于该像素值组成归一化后的人群密度平面图像。

步骤36：将归一化后的每一人群密度平面图像进行组合形成第二人群密度图像。

在一些实施例中，参阅图6，步骤36可以是如下流程：

步骤361：确定每一人群密度平面图像的加权平均权重。

步骤362：获取每一人群密度平面图像中对应相同平面位置的像素点的第一像素值，得到像素值集合。

步骤363：利用加权平均权重将像素值集合中的第一像素值进行加权求平均，得到第二像素值。

步骤364：将第二像素值作为第二人群密度图像中对应像素点的像素值，以形成第二人群密度图像。

对于形成第二人群密度图像而言，需要遍历其每一空间位置(即所有像素点)，采用加权平均的方式将每一人群密度平面图像上对应的像素点的像素值求和平均作为第二人群密度图像中对应像素点的像素值，最终形成第二人群密度图像。其中，加权平均权重为每一人群密度平面图像中每一像素位置(对应世界坐标平面上的位置)被监控视频覆盖的采集设备数量的倒数。

可以理解，因采集设备的设置会导致采集设备的采集区域会发生重叠，则此时重叠部分需要按照步骤361-364进行处理。同样，未重叠部分也可按照上述步骤进行，只是未重叠部分的加权平均权重为1。

在本实施例中，通过上述方式，采用透视变换关系将多个采集设备的第一人群密度图像投影变换到同一平面上，并进行归一化和空间融合，以实现跨视频人流量估计。

参阅图7和图8，图7是本申请提供的人群密度估计方法另一实施例流程示意图，图8是本申请提供的人群密度估计方法的一应用示意图。在图8中，若干特征提取层包括第一特征提取层、第二特征提取层、第三特征提取层和第四特征提取层；其中，第一特征提取层、第二特征提取层、第三特征提取层和第四特征提取层的网络深度依次增加；若干特征融合层包括第一特征融合层、第二特征融合层、第三特征融合层、第四特征融合层和第五特征融合层；其中，第一特征融合层、第二特征融合层、第三特征融合层、第四特征融合层的网络深度相同，第五特征融合层的网络深度大于第一特征融合层的网络深度。

该方法包括：

步骤71：获取多个人群图像。

步骤72：将每一人群图像输入至第一特征提取层，以输出第一特征图。

步骤73：将第一特征图输入至第二特征提取层，以输出第二特征图。

步骤74：将第二特征图输入至第三特征提取层，以输出第三特征图，以及将第二特征图输入至第一特征融合层，以输出第一特征融合图。

步骤75：将第三特征图输入至第四特征提取层，以输出第四特征图，以及将第三特征图和第一特征融合图输入至第五特征融合层，以输出第二特征融合图，以及将第三特征图输入至第二特征融合层，以输出第三特征融合图。

步骤76：将第四特征图、第二特征融合图和第三特征融合图输入至第三特征融合层，以输出第四特征融合图。

步骤77：将第四特征融合图输入至第四特征融合层，以输出第五特征融合图。

步骤78：将第五特征融合图输入至人群密度估计层，以输出与每一图像对应的第一人群密度图像。

步骤79：根据多个图像采集设备的位置和图像采集角度，将多个第一人群密度图像进行组合形成第二人群密度图像，以利用第二人群密度图像进行目标区域的人流量估计。

在一应用场景中，第一特征提取层的通道数由输入至输出方向依次为3、64、64和64。具体地，第一特征提取层的结构为{C(3,3,64),C(3,64,64),M(2,2)}，其中，C(3,3,64)表示一个卷积核大小为3、输入通道数为3、输出通道数为64、默认激活函数为ReLu的卷积层，M(2,2)表示一个感受域大小为2、步长为2的最大池化层。

第二特征提取层的通道数由输入至输出方向依次为64、128、128和128。具体地，第二特征提取层的结构为{C(3,64,128),C(3,128,128),M(2,2)}。

第三特征提取层的通道数由输入至输出方向依次为128、256、256、256、256、256、256和256。具体地，第三特征提取层的结构为{C(3,128,256),C(3,256,256),C(3,256,256),C(3,256,256),M(2,2)}。

第四特征提取层的通道数由输入至输出方向依次为256、512、512、512、512、512、512和512。具体地，第四特征提取层的结构为{C(3,256,512),C(3,512,512),C(3,512,512),C(3,512,512),M(2,2)}。

第一特征融合层的通道数由输入至输出方向依次为128和16。具体地，第一特征融合层的结构为{C(3,128,16)}。

第二特征融合层的通道数由输入至输出方向依次为16和16。具体地，第二特征融合层的结构为{C(3,16,16)}。

第三特征融合层的通道数由输入至输出方向依次为16和16。第四特征融合层的通道数由输入至输出方向依次为16、16、16、16、16和16；具体地，第三特征融合层的结构为{C(3,16,16)}，第四特征融合层的结构为{C(3,16,16),C(3,16,16),C(3,16,16)}。

第五特征融合层的通道数由输入至输出方向依次为256和16。具体地，第五特征融合层的结构为{C(3,256,16)}。

其中，在第一特征融合层、第二特征融合层、第三特征融合层、第四特征融合层和第五特征融合层中输入的目标特征图大小和通道数不一致时，采用双线性差值法对目标特征图进行上采样和下采样处理，并使用预设卷积层进行处理，以输出统一通道数的目标特征图。如卷积层为{C(3,x,16)}。其中，x表示接收到的目标特征图的输入通道数。在第一特征融合层、第二特征融合层、第三特征融合层、第四特征融合层和第五特征融合层中输入的目标特征图大小和通道数一致时，直接复制目标特征图进行输入。

下面介绍下人群密度估计网络的训练方法，首先，构建如上述任一实施例中的人群密度估计网络。然后进行训练样本的收集。其中，训练样本需要由不同位置的采集设备采集的不同区域的人群图像，以及人群图像对应的真实人群密度图像。这样在训练时可以获取到更多尺度的隐藏特征，提升人群密度估计网络的估计准确性。然后利用训练样本对人群密度估计网络进行训练，其中，将损失函数定义如下：

其中，

z和

分别为用于训练的真实人群密度图像和人群密度估计网络预测的第一人群密度图像向量化后的向量，其中，W(·)为最优传输代价函数，可采用Sinkhorn算法求解最优传输代价的解和梯度，λ ₁和λ ₂为损失函数子项权重。

其中，L _c用于表示真实人群密度图像中人群数量与第一人群密度图像中人群数量之间的损失值，L _ot用于表示最优传输损失，L _tv用于表示真实人群密度图像中的像素点与对应的第一人群密度图像中的像素点之间的损失值。

通过多次的迭代训练，在损失函数L满足预设条件时，则可以结束训练，人群密度估计网络训练完成，则可以将训练完成的人群密度估计网络用于上述任一实施例中。

参阅图9，图9是本申请提供的电子设备一实施例的结构示意图。该电子设备90包括处理器91和处理器91连接的存储器92；其中，存储器92用于存储程序数据，处理器91用于执行程序数据，以实现如下方法：

获取多个人群图像；其中，多个人群图像分别由多个图像采集设备采集得到；将多个人群图像输入至人群密度估计网络，以得到与每一人群图像对应的第一人群密度图像；其中，人群密度估计网络包括若干特征提取层和若干特征融合层以及人群密度估计层；若干特征提取层具有不同的网络深度；根据多个图像采集设备的位置和图像采集角度，将多个第一人群密度图像进行组合形成第二人群密度图像，以利用第二人群密度图像进行目标区域的人流量估计。

可以理解的，处理器91还用于执行程序数据，以实现上述任一实施例提供的方法，其具体的实施步骤可以参考上述任一实施例，这里不再赘述。

参阅图10，图10是本申请提供的计算机可读存储介质一实施例的结构示意图，该计算机可读存储介质100用于存储程序数据101，程序数据101在被处理器执行时，用于实现如下方法：

获取多个人群图像；其中，多个人群图像分别由多个图像采集设备采集得到；将多个人群图像输入至人群密度估计网络，以得到与每一人群图像对应的第一人群密度图像；其中，人群密度估计网络包括若干特征提取层和若干特征融合层以及人群密度估计层，若干特征提取层具有不同的网络深度；根据多个图像采集设备的位置和图像采集角度，将多个第一人群密度图像进行组合形成第二人群密度图像，以利用第二人群密度图像进行目标区域的人流量估计。

可以理解的，本实施例中的计算机可读存储介质100应用于电子设备，其具体的实施步骤可以参考上述实施例，这里不再赘述。

在本申请所提供的几个实施方式中，应该理解到，所揭露的方法以及设备，可以通过其它的方式实现。例如，以上所描述的设备实施方式仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述其他实施方式中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种人群密度估计方法，其特征在于，所述方法包括：

获取多个人群图像；其中，所述多个人群图像分别由多个图像采集设备采集得到；

将所述多个人群图像输入至人群密度估计网络，以得到与每一所述人群图像对应的第一人群密度图像；其中，所述人群密度估计网络包括若干特征提取层和若干特征融合层以及人群密度估计层，所述若干特征提取层具有不同的网络深度；

根据所述多个图像采集设备的位置和图像采集角度，将多个所述第一人群密度图像进行组合形成第二人群密度图像，以利用所述第二人群密度图像进行目标区域的人流量估计。
根据权利要求1所述的方法，其特征在于，

所述根据所述多个图像采集设备的位置和图像采集角度，将多个所述第一人群密度图像进行组合形成第二人群密度图像，包括：

根据每一所述采集设备的位置和所述图像采集角度确定每一所述采集设备的透视变换关系；

利用所述透视变换关系将每一所述第一人群密度图像进行平面投影，得到对应的人群密度平面图像；

对多个所述人群密度平面图像进行归一化；

将归一化后的每一所述人群密度平面图像进行组合形成所述第二人群密度图像。
根据权利要求2所述的方法，其特征在于，

所述根据每一所述采集设备的位置和所述图像采集角度确定每一所述采集设备的透视变换关系，包括：

在每一所述采集设备的位置对应的采集区域中确定至少四个空间坐标；以及在对应所述采集设备的所述人群图像中确定与所述至少四个空间坐标对应的像素点坐标；

利用所述至少四个空间坐标和与所述至少四个空间坐标对应的像素点坐标确定每一采集设备的所述透视变换关系。
根据权利要求2所述的方法，其特征在于，

所述对多个所述人群密度平面图像进行归一化，包括：

确定归一化权重矩阵；

将每一所述人群密度平面图像与所述归一化权重矩阵点乘，以对每一所述人群密度平面图像进行归一化。
根据权利要求4所述的方法，其特征在于，

所述确定归一化权重矩阵包括：

利用以下公式确定所述归一化权重矩阵：

其中，(x ₀,y ₀)表示所述人群图像上的像素点坐标，(x,y)表示所述人群密度平面图像上与所述人群图像上的像素点坐标相对应的像素点坐标，
为高斯模糊核中心落在所述人群图像像素点(x ₀,y ₀)的所述第一人群密度图像；
表示所述人群密度平面图像，i,j与m,n分别为所述人群图像上的像素点坐标和所述人群密度平面图像上的像素点坐标，w _xy为所述高斯模糊核中心落在所述人群图像像素点(x ₀,y ₀)的第一人群密度图像在所述人群密度平面图像(x,y)处像素点的权重，其中，
像素点(x ₀,y ₀)的像素值在使用高斯模糊计算前像素值为1且其他像素点的像素值为0。
根据权利要求2所述的方法，其特征在于，

所述将归一化后的每一所述人群密度平面图像进行组合形成所述第二人群密度图像，包括：

确定每一所述人群密度平面图像的加权平均权重；

获取每一所述人群密度平面图像中对应相同平面位置的像素点的第一像素值，得到像素值集合；

利用所述加权平均权重将所述像素值集合中的第一像素值进行加权求平均，得到第二像素值；

将所述第二像素值作为所述第二人群密度图像中对应所述像素点的像素值，以形成所述第二人群密度图像。
根据权利要求1所述的方法，其特征在于，

所述若干特征提取层包括第一特征提取层、第二特征提取层、第三特征提取层和第四特征提取层；其中，所述第一特征提取层、所述第二特征提取层、所述第三特征提取层和所述第四特征提取层的网络深度依次增加；

所述若干特征融合层包括第一特征融合层、第二特征融合层、第三特征融合层、第四特征融合层和第五特征融合层；其中，所述第一特征融合层、所述第二特征融合层、所述第三特征融合层、所述第四特征融合层的网络深度相同，所述第五特征融合层的网络深度大于所述第一特征融合层的网络深度。
根据权利要求7所述的方法，其特征在于，

所述将所述多个人群图像输入至人群密度估计网络，以得到与每一所述人群图像对应的第一人群密度图像，包括：

将每一所述人群图像输入至所述第一特征提取层，以输出第一特征图；

将所述第一特征图输入至所述第二特征提取层，以输出第二特征图；

将所述第二特征图输入至所述第三特征提取层，以输出第三特征图，以及将所述第二特征图输入至所述第一特征融合层，以输出第一特征融合图；

将所述第三特征图输入至所述第四特征提取层，以输出第四特征图，以及将所述第三特征图和所述第一特征融合图输入至所述第五特征融合层，以输出第二特征融合图，以及将所述第三特征图输入至所述第二特征融合层，以输出第三特征融合图；

将所述第四特征图、所述第二特征融合图和所述第三特征融合图输入至所述第三特征融合层，以输出第四特征融合图；

将所述第四特征融合图输入至所述第四特征融合层，以输出第五特征融合图；

将所述第五特征融合图输入至所述人群密度估计层，以输出与每一所述图像对应的所述第一人群密度图像。
根据权利要求8所述的方法，其特征在于，

所述第一特征提取层的通道数由输入至输出方向依次为3、64、64和64；

所述第二特征提取层的通道数由输入至输出方向依次为64、128、128和128；

所述第三特征提取层的通道数由输入至输出方向依次为128、256、256、256、256、256、256和256；

所述第四特征提取层的通道数由输入至输出方向依次为256、512、512、512、512、512、512和512；其中，所述第一特征提取层、所述第二特征提取层、所述第三特征提取层和所述第四特征提取层中的池化层的步长为2和感受域为2；

所述第一特征融合层的通道数由输入至输出方向依次为128和16；

所述第二特征融合层的通道数由输入至输出方向依次为16和16；

所述第三特征融合层的通道数由输入至输出方向依次为16和16；

所述第四特征融合层的通道数由输入至输出方向依次为16、16、16、16、16和16；

所述第五特征融合层的通道数由输入至输出方向依次为256和16。
根据权利要求8所述的方法，其特征在于，

所述方法还包括：

在所述第一特征融合层、所述第二特征融合层、所述第三特征融合层、所述第四特征融合层和所述第五特征融合层中输入的目标特征图不满足条件时，采用双线性差值法对所述目标特征图进行上采样和下采样处理，并使用预设卷积层进行处理，以输出统一通道数的所述目标特征图。
一种电子设备，其特征在于，所述电子设备包括处理器和所述处理器连接的存储器；

其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据，以实现如权利要求1-10任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序数据，所述程序数据在被处理器执行时，用于实现如权利要求1-10任一项所述的方法。