投稿问答最小化  关闭

万维书刊APP下载

北京大学刘瑜教授团队在空间分区域回归算法研究上取得研究进展

2024/1/24 16:02:44  阅读:39 发布者:

以下文章来源于未名时空 ,作者未名时空

Part.1 / 内容导读

考虑如下两个问题场景:

1)假定研究区包含AB两个连通的子区域,两个空间变量x1x2的取值在每个区域内部基本一致,区域之间存在明显差异。如何基于x1x2在各空间单元的取值,探测出AB的区域边界?

2)同样假定研究区包含AB两个连通的子区域,两个空间变量xy之间的关系在每个区域内部基本一致,区域之间存在明显差异(例如,A区域内近似满足y=2x; B区域内近似满足y=3x+1)。如何基于xy在各空间单元的取值,探测出AB的区域边界?

问题(1)与聚类分析密切相关:考虑各空间单元的变量取值(x1, x2)在属性空间中的分布,AB两区域分别对应一个聚簇。与通用的聚类分析不同,地理分析中往往要求划分出的聚簇对应空间上的连通区域,加入这一约束的问题称为空间约束聚类(spatially-constrained clustering),属于空间区域划分(regionalization)问题的一种。对此学界已有较多研究,代表性算法包括AZPSKATERREDCAP等。

问题(2)关注空间变量之间关系(而非取值本身)的区域差异,与问题(1)存在本质区别。一种相关的分析方法是地理加权回归(Geographically Weighted Regression, GWR),但GWR为每个单元估计一组不同的回归系数,这种逐单元的描述在概括性上存在不足。本研究采用如图1所示的分区域回归框架,为每个子区域分别拟合回归模型,同时对区域划分方案进行空间优化。此方法与GWR分别代表了空间回归中建模空间异质性的两种视角:离散(discrete)视角和连续(continuous)视角。

1. 分区域回归示意图

尽管回归系数在区域之间变化的理念早已出现在空间计量经济学等领域的研究中,但其中的区域划分方式往往是预定义的;空间回归中的区域划分算法研究依然存在较大空白。另一方面,将空间约束聚类算法扩展到空间回归场景是解决这一问题的可行途径。目前SKATER算法已被扩展为Skater Regression,但该方法的优化精度受限于单一的生成树。基于空间聚类中的迭代优化算法,本研究提出了分区域回归的两阶段K-Models算法和Regional-K-Models算法,并将AZP算法扩展到分区域回归场景;在一系列模拟数据集和真实数据集上进行了实验验证。

Part.2 / 研究方法

给定一组空间面状单元以及各单元的自变量、因变量取值,本文发展的三种算法均从随机的初始区域划分出发(划分区域的数目需要人为设定),以线性回归模型的总残差平方和(Sum of Squared Residuals, SSR)为目标进行迭代优化,最终输出区域划分方案及各区域的回归系数。以下简要介绍各算法的基本思想,更多细节请参见原始论文。

1)两阶段K-Models算法:包含划分和合并两个阶段。划分阶段采用与K-Means算法类似的思路,首先将各单元重新分配(使单点残差最小),之后重新拟合各区域的模型。此阶段不考虑空间连通性。合并阶段首先检查各区域的连通性,将不连通的区域分裂为连通分支,再采用贪心法逐步合并相邻区域,直至达到预定的分区数目。

2AZP算法:每次将一个单元尝试移动到相邻区域,若该移动使SSR下降且保持区域连通性,则采纳该移动,否则回退到移动前的状态。

3Regional-K-Models算法:与两阶段K-Models算法的划分阶段类似,但单元的移动需要保持区域连通性才能进行;合并阶段也不再必要。

Part.3 / 实验验证

本研究在25×25格网上生成了150组模拟回归数据,其隐含的分区通过矩形、Voronoi多边形、随机生长三种方式产生;从回归总拟合误差、分区重建准确度、回归系数估计偏差三个角度对各算法的优化效果进行定量评估。三种算法的结果均优于Skater Regression,相较GWR-SKATER(即对GWR局部回归系数进行空间约束聚类)更优或相当。特别地,两阶段K-Models算法相对于其它算法表现出明显优势。图2展示了三种区域设定下各一组数据的分区重建结果,可以看出GWR的平滑效应使GWR-SKATER难以准确探测区域边界;AZPRegional-K-Models的分区结果容易产生枝状偏差;而两阶段K-Models算法能较为准确地探测出空间异质回归关系的分区模式。

2. 模拟数据上的分区重建结果,第一行为真实分区,以下五行依次为各算法的分区结果

此外,本研究还将提出的算法应用于美国佐治亚州普查数据(图3)和King County Airbnb房价数据(图4),两阶段K-Models算法同样取得优于Skater Regression的结果。其中,King County数据集包含两万余个数据点,两阶段K-Models算法优化耗时约10分钟,表现出较优的可扩展性。

3. 两阶段K-Models算法在佐治亚州普查数据集上得到的各区域回归系数

4. King County房价数据集的区域划分结果

Part.4 / 总结与讨论

本研究发展的算法存在两点局限性:(1)分区数目需要人为指定;(2)尽管算法不仅适用于线性回归模型,各区域的模型形式、选取的变量需要保持一致。后续研究可针对上述问题进行扩展,提升算法的灵活性。

此外,本研究为地理模型可复现性的讨论提供了一种视角:由于地理现象中普遍存在的空间异质性,全局通用的模型往往难以得到。我们认为可以为每个地理模型设定空间适用范围,该范围之外需要使用不同的模型。对此,本研究提供了一种自上而下的解决方案,可以同时给出适用于不同区域的多个模型,并实现区域划分的最优化。

 参考材料

Hao Guo, Andre Python & Yu Liu (2023). Extending regionalization algorithms to explore spatial process heterogeneity, International Journal of Geographical Information Science, 37:11, 2319-2344

DOI: 10.1080/13658816.2023.2266493

本研究相关代码和数据参见GitHub: https://github.com/Nithouson/regreg

转自:“生态遥感前沿”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com