CN115129802A

CN115129802A - 一种基于多源数据和集成学习的人口空间化方法

Info

Publication number: CN115129802A
Application number: CN202210782643.0A
Authority: CN
Inventors: 夏南; 赵鑫; 姜朋辉; 周琛; 陈振杰; 徐云耘; 黄学锋; 李满春
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2022-09-30
Anticipated expiration: 2042-07-05
Also published as: CN115129802B

Abstract

本发明公开了一种基于多源数据和集成学习的人口空间化方法，该方法包括以下步骤：S1、获取多源数据并进行融合，构建人口空间化数据库；S2、从所述人口空间化数据库中构建用于模型拟合的指标体系，通过集成学习模型计算的特征重要性筛选出有效指标；S3、结合所述有效指标与社区人口之间的关系，构建Pop‑XGBoost人口空间化模型；S4、预测人口空间分布，并将格网人口模拟数据汇总至社区尺度，与真实的社区人口统计数据对比，验证结果精度。通过结合多源数据融合技术、指标筛选技术和集成学习技术等构建人口空间化模型，准确高效地实现高精度人口空间化预测。

Description

一种基于多源数据和集成学习的人口空间化方法

技术领域

本发明涉及地学大数据应用技术领域，尤其涉及一种基于多源数据和集成学习的人口空间化方法。

背景技术

人口信息可以为区域可持续发展和空间规划提供科学支持。但目前的人口数据通常是各行政区的统计值，空间分辨率较低，不能充分表达行政单元内人口分布的空间差异。同时，统计的人口数据很难与一些涉及复杂地理边界的研究相匹配，也不便于整合其他多源数据，如遥感数据。以网格为单元的人口分布数据不仅更加精细，也能更好地揭示人口的空间异质性，实现资源、环境和管理信息的整合。因此，开展精细尺度人口空间化研究具有重要的现实意义。

根据研究目标和辅助数据的不同，常用的人口分布估计方法可归纳为两类：区域插值法和统计建模法。区域插值方法得到的人口分布结果有较低的预测精度和空间分辨率，主要原因是没有充分考虑人口分布的多种影响因素，以及区域插值的合理性较差。相较区域插值法，利用统计模型能够有效的提高人口空间化的结果精度。统计模型法主要是通过特定的统计模型构建人口与各辅助变量之间的线性关系，进而实现人口的空间预测。常用的辅助数据有土地利用数据、夜间灯光数据、道路、海岸线、MODIS/EVI、数字高程模型(DEM)和不透水面等。

虽然上述辅助数据是有效的，但仍然不能充分代表人口空间分布的经济、社会与文化因素。因此，越来越多的研究将开放获取的地理空间大数据应用于绘制人口分布地图，以此反映人类活动的强度。常用的地理大数据包括手机信令、行为轨迹数据、兴趣点(POIs)、OpenStreetMap、社会保险账户、房价和出租车轨迹数据等。此外，建筑属性数据也与人口分布息息相关，如建筑类型、高度、容积率、建筑面积和建筑面积等信息。然而，单一的辅助数据可能存在数据不完整和数据异常等问题，导致由此得到的人口模拟数据与真实人口数据存在较低的相关性。因此，集成多源数据以反映人口空间分布，可减少单一类型辅助数据所造成的预测偏差。但随着数据及其特征的增加，在构建人口空间化模型时会出现数据噪声，难以实现高精度的人口空间化预测。

统计模型由于结构简单等问题，在处理复杂多元的影响因子时受到了一定的局限。而机器学习模型能够很好地处理多源和多维特征，精确挖掘多源辅助数据与人口之间的关系。其中，基于决策树的集成学习算法具有较高的模拟精度，主要有RF、GBDT、 XGBoost等。目前在遥感领域，RF和XGBoost模型已经有了较多的应用，例如土壤养分估计、日参考蒸散发计算、土地利用分类、PM2.5预测、滑坡敏感性制图、生物量估算等。部分研究结果表明，与RF和GBDT模型相比，XGBoost模型不仅可降低过拟合问题和计算复杂度，而且能提高预测精度，从而使模型的最优解更高效。然而，XGBoost 模型在精细尺度人口空间化中的应用还很少，特别是针对集成多源地理大数据和建筑物信息等的研究。

因此，当前人口空间化研究仍有两个主要技术缺陷：

(1)从数据的角度来看，单一辅助数据会造成预测结果精度差。

(2)从模型的角度来看，辅助数据的增加会带来数据噪声，并造成模型拟合的不稳定，从而影响人口空间化的结果精度。此外，XGBoost模型在精细化人口空间化中的应用还很少。

发明内容

针对相关技术中的问题，本发明提出一种基于多源数据和集成学习的人口空间化方法，以克服现有相关技术所存在的上述技术问题。

为此，本发明采用的具体技术方案如下：该方法包括以下步骤：

S1、获取多源数据并进行融合，构建人口空间化数据库；

S2、从所述人口空间化数据库中构建用于模型拟合的指标体系，通过集成学习模型计算的特征重要性筛选出有效指标；

S3、结合所述有效指标与社区人口之间的关系，构建Pop-XGBoost人口空间化模型；

S4、预测人口空间分布，并将格网人口模拟数据汇总至社区尺度，与真实的社区人口统计数据对比，验证结果精度。

进一步的，获取多源数据并进行融合，构建人口空间化数据库，包括以下步骤：

S11、获取多源数据；

S12、从所述多源数据中选取若干指标构建指标体系；

S13、将各个所述指标分别重采样为100m×100m格网尺度，并汇总至社区尺度；

S14、统计格网尺度的建筑物数据，并将建筑物按照格网进行分割；

S15、构建以100m×100m格网为单元的人口空间化数据库。

进一步的，所述多源数据包括基础地理数据、遥感数据、建筑物数据及地理大数据；

所述建筑物数据包括建筑物总面积、建筑物基底面积、建筑层数、建筑物体积、建筑类型。

进一步的，所述将建筑物按照格网进行分割的公式包括：

k＝S(Building_Ai)/S(Building_A)

GFA(Building_Ai)＝k×GFA(Building_A)

GFA(Grid_i)＝∑GFA(Building)

式中，S(Building_A)表示建筑A的建筑面积；

S(Building_Ai)表示建筑A在Grid_i的建筑面积；

k表示分割系数；

Grid_i表示第i个格网；

GFA(Building_A)表示A栋建筑的总面积；

GFA(Building_Ai)表示Grid_i内A栋建筑面积；

GFA(Grid_i)表示Grid_i内所有建筑物的总建筑面积。

进一步的，从所述人口空间化数据库中构建用于模型拟合的指标体系，通过集成学习模型计算的特征重要性筛选出有效指标，包括以下步骤：

S21、以社区尺度指标的统计值为输入变量，以社区真实人口为输出目标，构建集成学习模型；

S22、根据构建得到的所述集成学习模型，分别计算各指标的特征重要性；

S23、根据所述特征重要性的平均值，选取对人口分布影响大的指标作为有效指标。

进一步的，所述集成学习模型包括随机森林、梯度提升决策树及极端梯度提升决策树。

进一步的，所述结合所述有效指标与社区人口之间的关系，构建Pop-XGBoost人口空间化模型，包括以下步骤：

S31、基于所述极端梯度提升决策树，利用sklearn库的GridSearchCV模块，在指定范围内自动确定Pop-XGBoost模型的最优参数；

S32、将所述有效指标作为输入指标，以75％的社区及其真实人口数据作为训练集，构建Pop-XGBoost模型；

S33、以剩余的25％的社区及其人口数据作为测试集，对所述Pop-XGBoost模型进行验证与分析。

进一步的，所述预测人口空间分布，将格网人口模拟数据汇总至社区尺度，并与真实的社区人口统计数据对比，验证结果精度，包括以下步骤：

S41、引入所述sklearn库中的XGB-Regressor模块，对每个网格的人口进行估计；

S42、按照Pop-XGBoost模型得到的网格人口占所在区县所有网格总人口的比例，利用分配公式重新分配每个100m×100m网格的人口数；

S43、选择评价因子对预测人口进行精度评价。

进一步的，所述分配公式为：

式中，i表示区域内的每个网格；

j表示格网所在的行政区；

P_i表示校正后每个网格内的人口数；

D_j表示该网格所在区县的人口总数；

M_i表示该网格根据Pop-XGBoost模型估计得到的人口数；

M_j表示该网格所在行政区的所有网格的模型估计人口总数。

进一步的，所述评价因子包括相对平均绝对误差、均方根误差和决定系数。

本发明的有益效果为：通过结合多源数据融合技术、指标筛选技术和集成学习技术等构建人口空间化模型，准确高效地实现高精度人口空间化预测。首先，融合基础地理数据、遥感数据、建筑物数据(如建筑类型、容积率等)、地理大数据(房价分布等)，构建以100m×100m格网为单元的人口空间化数据库，为精细尺度人口空间化提供数据支撑。其次，为了解决辅助数据增加带来的噪声增强和模型拟合不稳定的问题，通过多种集成学习模型计算特征重要性，筛选指标以降低数据噪声，提高精细尺度人口空间化结果精度；最终构建Pop-XGBoost人口空间化模型，提高精细尺度人口空间化结果精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种基于多源数据和集成学习的人口空间化方法的流程图；

图2是根据本发明实施例的一种基于多源数据和集成学习的人口空间化方法中深圳行政区域示意图；

图3是根据本发明实施例的一种基于多源数据和集成学习的人口空间化方法的技术路线图；

图4是根据本发明实施例的一种基于多源数据和集成学习的人口空间化方法中不同指标的特征重要性；

图5是根据本发明实施例的一种基于多源数据和集成学习的人口空间化方法中Pop-XGBoost人口空间化预测结果示意图；

图6是根据本发明实施例的一种基于多源数据和集成学习的人口空间化方法中Pop-XGBoost与Worldpop人口空间化(100m×100m)结果对比示意图；

图7是根据本发明实施例的一种基于多源数据和集成学习的人口空间化方法中图5 中a，b，c，d四个区域的人口分布对比示意图。

具体实施方式

为进一步说明各实施例，本发明提供有附图，这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理，配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点，图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

根据本发明的实施例，提供了一种基于多源数据和集成学习的人口空间化方法。

本发明中实施例中，选用深圳市人口作为分析对象，深圳市是中国南部海滨城市，毗邻中国香港，位于北回归线以南(113°46′～114°37′E，22°27′～22°52′N)，是中国第一个经济特区，包含福田区、罗湖区、南山区、盐田区、宝安区、龙岗区、光明区、龙华区、坪山区、大鹏新区等10个行政区，74个街道，734个社区(图1)。1979年深圳市人口仅有31万，到2019年深圳市常住人口已经增长至1344万。2019年，深圳市总面积1997.47平方千米，建成区面积927.96平方千米。

并从以下五个方面的数据与参数进行人口的预测与验证。

(1)人口统计数据

研究从深圳市国土资源委员会获取了2019年270个社区的人口统计数据，作为模型训练和模型验证的真实数据，其中202个训练集(74.9％)和68个测试集(25.1％)，测试集作为独立验证集将不参与模型的训练。

(2)地理大数据

研究获取的地理大数据包括：百度POIs、地铁路线、房价、容积率、绿化率、总户数、停车位、OpenStreetMap路网数据等。

研究所使用的POIs数据来自于中国使用最多、规模最大的互联网地图服务提供商百度地图。研究通过调用百度地图的Place API快速获取百度地图的POIs数据。获取的POIs包括经纬网坐标、类别、名称等属性信息。整理获取的数据，筛选出重复或者属性缺失的部分数据，得到有效数据共802668个。利用核密度分析法对各类POIs数据进行处理，得到政府机构、教育、企业、购物、金融、卫生、娱乐、交通、餐饮、居住等10 类栅格数据(100m×100m)。

从百度地铁图JavaScript API获取研究区的地铁路线，利用ArcGIS10.8中的欧式距离工具，计算各格网(100m×100m)与地铁路线的距离。

从安居客网站获取深圳市7714条小区数据，包含房价、容积率、绿化率、总户数、停车位等5类属性。安居客是中国最常用的一个在线平台，主要发布出售或出租的房地产信息。利用克里金插值法将5类属性数据插值至整个研究区，得到各格网(100m× 100m)的房价、容积率、绿化率、总户数、停车位等信息。

从OpenStreetMap获取研究区路网数据。OpenStreetMap包含的路网信息丰富且精度较高，能够反映城市范围内人口的空间分布状态。OpenStreetMap路网类型包含自行车道、人行道、主干道、高速公路等16类。路网密度是指研究单元内路网总长度与研究单元面积之比。

(3)遥感数据

研究获取的遥感数据包括：数字高程模型(DEM)、Landsat 8 OLI数据、不透水面产品、夜间灯光数据。

从地理空间数据云获取Landsat 8 OLI(2018/04)和DEM。利用ENVI5.3对Landsat8 OLI数据进行处理，得到植被归一化指数和地表温度。利用Acgis10.8对DEM进行处理，提取坡向和坡度数据。

从国家地球系统科学数据中心获取全球不透水面产品(MSMT_IS30)，该数据总体精度为95.1％、分辨率为30m，以此计算研究区内各格网的不透水面占比。不透水面占比是指研究单元内不透水面面积占研究单元面积的比例。

夜间灯光数据选用空间分辨率为130m的珞珈一号夜间灯光数据。

最后，将分辨率为30m的植被归一化指数、高程、不透水面占比、坡向、坡度、地表温度以及夜间灯光重采样至100m。

(4)基础地理数据

研究从深圳市规划和国土资源委员会获取了土地利用、行政区边界等基础地理数据。基于欧氏距离方法计算了评价单元格网(100m×100m)距水面/海岸线距离、距中心城区距离、距绿地/公园距离。建设用地占比是指研究单元内建设用地面积与研究单元面积之比。

(5)建筑物数据

建筑物数据来自深圳市规划和国土资源委员会，包含建筑物总面积、建筑物基底面积、建筑层数、建筑物体积、建筑类型等5个属性。基于这5个属性，按照100m×100m 格网，计算建筑容积率、建筑物密、建筑总面积、建筑面积、建筑层数、建筑体积、建筑类型等7个指标(表1)。国家标准《民用建筑设计统一标准》(GB 50352-2019)将建筑物类型分为四类，分别为居住建筑、公共建筑、工业建筑以及农业建筑。根据人口在不同建筑物类型的分布情况，对建筑物类型进行量化。建筑物类型量化方程为公式 D7＝Qi×D6，其中Qi为建筑物类型权重。建筑物类型中居住建筑、公共建筑、工业建筑以及农业建筑的建筑物权重分别为10、5、3、2。建筑物密度是指区域内所有建筑物的基底面积总和与区域面积之比。建筑物总面积比例是指研究单元内所有建筑物总面积总和与研究单元面积之比。

现结合附图和具体实施方式对本发明进一步说明，如图1-7所示，根据本发明的一个实施例，提供了一种基于多源数据和集成学习的人口空间化方法，该方法包括以下步骤：

S1、获取多源数据并进行融合，构建人口空间化数据库，包括以下步骤：

S11、获取多源数据，包括基础地理数据、遥感数据、建筑物数据及地理大数据；

S12、从所述多源数据中选取若干指标构建指标体系；

S14、统计格网尺度的建筑物数据，并将建筑物按照格网进行分割，其分割公式包括：

k＝S(Building_Ai)/S(Building_A)

GFA(Building_Ai)＝k×GFA(Building_A)

GFA(Grid_i)＝∑GFA(Building)

式中，S(Building_A)表示建筑A的建筑面积；

S(Building_Ai)表示建筑A在Grid_i的建筑面积；

k表示分割系数；

Grid_i表示第i个格网；

GFA(Building_A)表示A栋建筑的总面积；

GFA(Building_Ai)表示Grid_i内A栋建筑面积；

GFA(Grid_i)表示Grid_i内所有建筑物的总建筑面积。S15、构建以100m×100m格网为单元的人口空间化数据库。

其中，所述多源数据包括基础地理数据、遥感数据、建筑物数据及地理大数据四类数据，共选取35个指标，如表1所示；

所述建筑物数据包括建筑物总面积、建筑物基底面积、建筑层数、建筑物体积、建筑类型等属性。

表1：人口空间化指标体系

S2、从所述人口空间化数据库中构建用于模型拟合的指标体系，通过集成学习模型计算的特征重要性筛选出有效指标，包括以下步骤：

集成学习通过构建并结合多个分类器来完成学习任务，也称为多分类系统，集成学习的目的是通过结合多个机器学习分类器的预测结果，改善基学习器的泛化能力和鲁棒性。其中，所述集成学习模型包括随机森林(RF)、梯度提升决策树(GBDT)及极端梯度提升决策树(XGBoost)。RF、GBDT与XGBoost模型在评价特征重要性和处理高维数据方面具有优势。

具体的，随机森林(RF)是一种基于决策树的集成算法。RF是Bagging的扩展变体，它在以决策树为基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入了随机特征选择。RF的实现过程如下：首先从原始训练数据集(D₁，D₂，…， D_k)中获得k个采样集；其次，通过对每个样本集进行训练，得到k个弱学习者{h₁， h₂，…，h_k}；最后，使用多数投票或者预测结果的平均值来得到最终的分类结果。

梯度提升决策树(GBDT)被广泛应用于分类、回归等各种任务中，它是决策树和梯度增强的结合。GBDT和RF的主要区别在于，GBDT中决策树的拟合是建立在之前决策树残差的基础上。因此，GBDT可以减小偏差和方差。在每次迭代的过程中，GBDT 的目标是建立一个回归树的弱分类器，以减少损失函数的迭代，可表示为

第m次迭代的预测值，

是损失函数，f_m(x_i)用于最小化损失函数。

极端梯度提升决策树(XGBoost)是GBDT的进一步优化。损失函数可以表示为

其中yi为真值，

为第m-1次迭代的预测值。GBDT在优化时只使用一阶导数信息。而XGBoost对损失函数进行二阶泰勒展开，得到一阶和二阶导数，可以表示为

g_i和h_i是一阶和二阶梯度统计损失函数，可以表示为

此外，XGBoost还在损失函数中增加了一个正则项Ω(f_m)，以控制模型的复杂度，该值越小表示计算复杂度越低、泛化能力越强。因此，XGBoost不仅可以降低模型的方差和复杂性，而且可以避免过拟合问题。

S3、结合所述有效指标与社区人口之间的关系，构建Pop-XGBoost人口空间化模型，包括以下步骤：

S31、基于所述极端梯度提升决策树，利用sklearn库的GridSearchCV模块在指定范围内自动确定Pop-XGBoost模型的最优参数；

其中，n_estimators是弱学习器的最大迭代次数，或者说最大的弱学习器的个数，通常不影响模型的复杂度。max_depth是一棵树的最大深度，当特征较多时，推荐对 max_depth调参，可以避免过拟合。n_estimators、max_depth对Pop-XGBoost模型的拟合精度有较大影响。learning rate可以通过减少每一步的权重，提高模型的鲁棒性。 min_child_weight是最小叶子节点样本权重和。当min_child_weight值较大时，可以避免模型学习到局部的特殊样本。但如果min_child_weight过高，会导致欠拟合。Gamma 指定了节点分裂所需的最小损失函数下降值。这个参数值越大，算法越保守。Subsample 是随机采样的比例，减小Subsample的值，可以避免算法过拟合，但是如果这个值设置得过小，它可能会导致欠拟合。colsample_ubytree是构建每个决策树时的列采样比率。

因此寻找最佳的learning_rate、min_child_weight、gamma、subsample和colsample_bytree等参数，对Pop-XGBoost模型非常重要。

表2：参数范围

参数	XGBoosT参数取值范围	自动搜索步长
			N_ESTIMATORS	10-201	10
MAX_DEPTH	3-10	1
			L<sub>EARNING_RATE</sub>	0-0.3	/
M<sub>IN_CHILD_WEIGHT</sub>	1-6	1
			G<sub>AMMA</sub>	0-0.5	/
S<sub>UBSAMPLE</sub>	0.5-1	/
			C<sub>OLSAMPLE_BYTREE</sub>	0.5-1	/

S4、预测人口空间分布，将格网人口模拟数据汇总至社区尺度，并与真实的社区人口统计数据对比，验证结果精度，包括以下步骤：

由于用最优模型估计得到的每个网格的人口数是根据社区人口数生成的估计，所以需以区县尺度的统计人口数据为准，进行格网模拟人口结果的总量控制。

其中，所述分配公式为：

式中，i表示区域内的每个网格；

j表示格网所在的行政区；

P_i表示校正后每个网格内的人口数；

D_j表示该网格所在区县的人口总数；

M_i表示该网格根据Pop-XGBoost模型估计得到的人口数；

M_j表示该网格所在行政区的所有网格的模型估计人口总数。

S43、选择评价因子对预测人口进行精度评价。

其中，所述评价因子包括相对平均绝对误差(MAE)、均方根误差(RMSE)和决定系数(R2)。MAE和RMSE值越小，估计结果越准确；R2的取值范围在(0，1)区间，取值越接近1，表明预测人口越接近真实人口。

以下为利用本发明展开的具体实施例研究与结果分析：

(一)指标筛选结果

从35个指标的特征重要性(相对值，以百分比还表示)平均值可以看出，5类建筑物数据的特征重要性之和超过69％，表明建筑物数据对人口的空间分布具有较大影响。其中建筑面积(D3)的特征重要性最大为33.02％，建筑层数(D5)和建筑类型(D7) 的特征重要性较大，分别为14.63％，10.29％。地理大数据的特征重要性之和约为21.73％。地理大数据中POIs密度的特征重要性之和约为16.57％，其中医疗设施核密度(A6)的贡献率最大为6.45％，餐厅密度(A9)的贡献率最小为0.38％。此外，总户数(A14) 和地铁距离(A16)也有较高的特征贡献率，分别为1.34％和1.03％。遥感数据的特征重要性之和约为6.17％。DEM(B1)、不透水面占比(B3)夜间光灯光强度(B6)有较高的特征贡献率，分别为1.27％，1.30％，1.31％。基础地理数据的特征重要性之和约为 3.05％。仅距离水域/海岸线(C1)有较大的特征贡献率(1％)。综上所述，选择重要性评分大于1％的低冗余度指标，共21个。其中建筑物数据有效指标为7个，地理大数据有效指标为10个，遥感数据有效指标为3个，基础地理数据有效指标为1个。

(二)基于有效指标构建Pop-XGBoost人口空间化模型

以21个有效指标为输入变量，以202个社区(占270个社区的75％)的真实人口作为输出目标，构建Pop-XGBoost人口空间化模型。最优参数如表3所示。以68个社区(占270个社区的25％)的真实人口作为验证集，判断构建模型的精度。结果表明，训练集精度高达99％，测试集精度高达92％。

表3：不同模型的最优参数

(三)格网尺度人口空间分布预测结果

将选取的21个指标统计至100m×100m格网尺度作为Pop-XGBoost模型的输入变量，预测深圳市人口空间分布。结果如图5所示，每个栅格代表该网格范围(1公顷) 内的人口数。从图5可以看出，人口密度较大的区域主要集中在福田区东南部(南园街道、福保街道和福田街道等)、罗湖区西南部(南湖街道、东门街道等)，龙华区中部(龙华街道和龙岗区)、龙岗区南部(布吉街道和南湾街道)。总体而言中，人口集中分布在区位条件优越、经济条件较好的区域，方便人们进行生产生活等活动。因此基于 Pop-XGBoost的人口空间分布预测结果符合人口的实际分布特征。

(四)精度验证

获取深圳市2019年的Worldpop数据集，该数据集是应用较为广泛、认可度较高、精度较好的人口空间化栅格数据集，其提供的数据集的空间分辨率最精细可达100m× 100m。与Pop-XGBoost模型的预测结果进行对比(图6)，结果表明Pop-XGBoost模型和Worldpop数据集的人口空间分布预测结果趋势大致相同，人口的高值集聚区域基本相同。

选取2019年Sentinel-2遥感影像数据，空间分辨率为20米，验证Pop-XGBoost模型的人口预测结果。在图7中的四个区域(a,b,c,d)的细节对比结果中可发现， Pop-XGBoost模型和Worldpop数据集在不同区域的预测结果基本一致。但Worldpop在低人口密度区域(例如区域b)模拟效果不佳，与遥感影像不一致，主要是因为Worldpop 所用数据不够精细。而本研究提出的Pop-XGBoost模型，其预测结果与遥感影像基本一致，更能反映精细尺度的人口空间分布。

将模型得到的格网人口结果汇总至社区尺度，与社区尺度的统计值进行对比，计算 MAE、RMSE和R2等指标。结果表明Pop-XGBoost模型的RMSE值为12783.82、MAE 值为8006.07、R2值为80.54％，整体精度较好。

综上所述，借助于本发明的上述技术方案，通过结合多源数据融合技术、指标筛选技术和集成学习技术等构建人口空间化模型，准确高效地实现高精度人口空间化预测。首先，融合基础地理数据、遥感数据、建筑物数据(如建筑类型、容积率等)、地理大数据(房价分布等)，构建以100m×100m格网为单元的人口空间化数据库，为精细尺度人口空间化提供数据支撑。其次，为了解决辅助数据增加带来的噪声增强和模型拟合不稳定的问题，通过多种集成学习模型计算特征重要性，筛选指标以降低数据噪声，提高精细尺度人口空间化结果精度；最终构建Pop-XGBoost人口空间化模型，提高精细尺度人口空间化结果精度。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于多源数据和集成学习的人口空间化方法，其特征在于，该方法包括以下步骤：

S1、获取多源数据并进行融合，构建人口空间化数据库；

2.根据权利要求1所述的一种基于多源数据和集成学习的人口空间化方法，其特征在于，获取多源数据并进行融合，构建人口空间化数据库，包括以下步骤：

S11、获取多源数据；

S12、从所述多源数据中选取若干指标构建指标体系；

S15、构建以100m×100m格网为单元的人口空间化数据库。

3.根据权利要求2所述的一种基于多源数据和集成学习的人口空间化方法，其特征在于，所述多源数据包括基础地理数据、遥感数据、建筑物数据及地理大数据；

所述建筑物数据包括建筑物总面积、建筑物基底面积、建筑层数、建筑物体积及建筑类型。

4.根据权利要求3所述的一种基于多源数据和集成学习的人口空间化方法，其特征在于，所述将建筑物按照格网进行分割的公式包括：

k＝S(Building_Ai)/S(Building_A)

GFA(Building_Ai)＝k×GFA(Building_A)

GFA(Grid_i)＝∑GFA(Building)

式中，S(Building_A)表示建筑A的建筑面积；

S(Building_Ai)表示建筑A在Grid_i的建筑面积；

k表示分割系数；

Grid_i表示第i个格网；

GFA(Building_A)表示A栋建筑的总面积；

GFA(Building_Ai)表示Grid_i内A栋建筑面积；

GFA(Grid_i)表示Grid_i内所有建筑物的总建筑面积。

5.根据权利要求1所述的一种基于多源数据和集成学习的人口空间化方法，其特征在于，从所述人口空间化数据库中构建用于模型拟合的指标体系，通过集成学习模型计算的特征重要性筛选出有效指标，包括以下步骤：

6.根据权利要求5所述的一种基于多源数据和集成学习的人口空间化方法，其特征在于，所述集成学习模型包括随机森林、梯度提升决策树及极端梯度提升决策树。

7.根据权利要求6所述的一种基于多源数据和集成学习的人口空间化方法，其特征在于，所述结合所述有效指标与社区人口之间的关系，构建Pop-XGBoost人口空间化模型，包括以下步骤：

S31、基于所述极端梯度提升决策树，利用sklearn库的GridSearchCV模块在指定范围内自动搜索Pop-XGBoost模型的最优参数；

8.根据权利要求7所述的一种基于多源数据和集成学习的人口空间化方法，其特征在于，所述预测人口空间分布，将格网人口模拟数据汇总至社区尺度，并与真实的社区人口统计数据对比，验证结果精度，包括以下步骤：

S43、选择评价因子对预测人口进行精度评价。

9.根据权利要求8所述的一种基于多源数据和集成学习的人口空间化方法，其特征在于，所述分配公式为：

式中，i表示区域内的每个网格；

j表示格网所在的行政区；

P_i表示校正后每个网格内的人口数；

D_j表示该网格所在区县的人口总数；

M_i表示该网格根据Pop-XGBoost模型估计得到的人口数；

M_j表示该网格所在行政区的所有网格的模型估计人口总数。

10.根据权利要求9所述的一种基于多源数据和集成学习的人口空间化方法，其特征在于，所述评价因子包括相对平均绝对误差、均方根误差和决定系数。