标题:Geocomplexity explains spatial errors
期刊:International Journal of Geographical Information Science
作者:Zehua Zhang, Yongze Song, Peng Luo & Peng Wu
DOI: https://doi.org/10.1080/13658816.2023.2203212
导读:这是一篇发表在《国际地理信息科学杂志》(International Journal of Geographical Information Science)上的研究文章。这篇文章提出了一个新的空间指标,叫做地理复杂度,来衡量空间依赖性方面的复杂性,并用它来解释传统模型在空间数据分析中产生的未知误差。以澳大利亚的经济不平等为案例,探讨了经济不平等和影响因素之间的关系,并用地理复杂度来解释多元回归、支持向量回归和地理加权回归三种模型的空间误差。还将地理复杂度与其他空间指标进行了比较,发现地理复杂度具有更强的误差解释能力。地理复杂度是一种有用的空间指标,可以增进对复杂地理系统的理解,并在各种空间数据分析领域中有潜在的应用价值。
本文字数:3951字 阅读时间:15分钟
1. 引言
空间误差的解释:地理空间建模中,如何解释不同地区的误差一直是一个挑战。本研究引入了一个指标,能够反映局部空间分布的复杂性,从而部分地揭示空间误差的原因。
空间复杂性的测量:以往的研究从不同的角度探讨了地理数据的复杂性,但是很少考虑空间依赖性的影响。本研究提出了一个地理复杂性的度量,即空间局部复杂性指标,它能够在考虑空间邻域依赖性的同时,表征局部空间模式的复杂性。
空间复杂性在误差解释中的应用:本研究使用了传统的模型(线性回归、支持向量回归和地理加权回归)来估计澳大利亚的经济不平等,并将空间局部复杂性指标应用于解释这些模型中的空间误差。结果表明,该指标能够有效地解释模型产生的误差,包括17%-47%的非空间模型误差和14%的空间模型误差。
常识补充说明:空间邻域依赖性是指地理数据中某个位置上的数据与其他位置上的数据之间的相互依赖程度。这种依赖性通常被称为空间依赖性(spatial dependence)。由于地理数据受到空间相互作用和空间扩散的影响,彼此之间可能不再相互独立,而是相关的。所谓的空间自相关(spatial autocorrelation)就是研究「空间中,某空间单元与其周围单元间,就某种特征值,透过统计方法,进行空间自相关性程度的计算,以分析这些空间单元在空间上分布现象的特性。可以采用全局和局部自相关指数来衡量空间要素属性值聚合或离散的程度。不同的自相关系数适用于不同的数据类型。空间权重是进行空间自相关分析的前提和基础。
2. 空间局部复杂性
空间局部复杂性指标的定义:空间局部复杂性指标是一个基于空间邻域依赖性的复杂性度量,它反映了一个空间单元与其周围单元之间的空间分布差异程度。该指标可以用二元空间矩阵或连续空间矩阵来计算。
空间局部复杂性指标的计算方法:空间局部复杂性指标的计算分为三个步骤:(1)确定空间邻域结构,(2)计算每个空间单元的局部自相关系数,(3)计算每个空间单元的局部复杂性值。该指标可以用全局和局部的方式来表示。
空间局部复杂性指标的特征和优势:空间局部复杂性指标具有以下特征和优势:(1)能够同时考虑空间分布和空间依赖性,(2)能够捕捉不同尺度和方向上的空间复杂性,(3)能够适用于不同类型和分辨率的地理数据,(4)能够与其他复杂性指标进行比较和验证。
3. 研究方法
作者提出了一个新的空间指标,叫做地理复杂度,来衡量空间依赖性方面的复杂性。地理复杂度是基于Moran指标的,考虑了一个区域和其周围的空间关系,以及周围区域之间的空间关系。
作者以澳大利亚的经济不平等为案例,探讨了经济不平等和影响因素之间的关系,并用地理复杂度来解释传统模型的未知误差。作者选择了五个影响因素,包括性别比例、收入水平、房屋所有权、工业雇员数和工业规模,并计算了这些因素的地理复杂度。
作者运用了三种传统模型(即多元回归、支持向量回归和地理加权回归)来估计全国范围内的经济不平等,并用地理加权回归来量化地理复杂度对误差的解释程度。结果表明,地理复杂度可以解释17%-47%的传统模型误差,并且可以提高模型性能。
作者还将地理复杂度与其他空间指标(如局部Geary’s C和行标准化矩阵的地理复杂度)进行了比较,发现地理复杂度具有更强的误差解释能力。作者认为,地理复杂度是一种有用的空间指标,可以增进对复杂地理系统的理解,并在各种空间数据分析领域中有潜在的应用价值。
常识补充说明:Moran指数分为全局和局部,两者都是用来分析空间相关性的一个指标,全局莫兰指数用来分析有没有空间自相关性存在,而局部莫兰指数用来探测异常值或者集聚出现的范围和位置。
4. 研究数据
空间数据:作者使用了澳大利亚的统计地理区域标准(ASGS)下的第三级统计区域(SA3)作为空间单元,分析了全国范围内的经济不平等和影响因素的空间分布和关系。SA3的空间边界数据来自澳大利亚统计局(ABS)的数据档案。
经济不平等数据:作者使用了基尼系数作为经济不平等的指标,其值从0到1变化,0表示完全平等,1表示完全不平等。基尼系数在SA3级别的数据也来自ABS,基于2016年的人口普查数据。
影响因素数据:作者选择了八个可能与经济不平等相关的社会和基础设施变量,包括性别比例、互联网覆盖率、高等教育比例、收入水平、房屋所有权率、工业公司数量、工业雇员数量和工业区域规模。这些变量除了工业区域规模外,都是在SA3级别的数据,来自ABS、OpenStreetMap(OSM)和国家污染物清单(NPI)。
地理复杂度数据:作者根据前文提出的地理复杂度指标,计算了每个SA3区域的地理复杂度值,用来解释传统模型的空间误差。地理复杂度指标是基于Moran指标的,考虑了一个区域和其周围的空间关系,以及周围区域之间的空间关系。
5. 国家层面经济不平等的决定因素
经济不平等的空间模型:本章使用多元回归、支持向量回归和地理加权回归三种模型来估计澳大利亚的经济不平等,以及其与五个解释变量(性别比、收入水平、房屋所有权、工业雇员数和工业规模)的关系。这些模型的参数和性能都通过交叉验证法来确定。
模型的比较和评价:本章使用R2值、残差平方和和赤池信息准则来比较和评价三种模型的拟合效果。结果表明,地理加权回归模型具有最高的R2值(0.761),最低的残差平方和(0.179)和最小的赤池信息准则(–1575),说明该模型能够更好地捕捉经济不平等的空间异质性。
模型的空间分析:本章进一步对地理加权回归模型的系数进行了空间分析,探讨了不同地区的经济不平等受到解释变量的影响程度。结果显示,收入水平、房屋所有权和工业雇员数在不同地区对经济不平等有不同的正负效应,而性别比和工业规模则没有显著的空间变化。此外,本章还分析了解释变量之间的空间相关性,发现收入水平和房屋所有权之间存在较强的正相关,而工业雇员数和工业规模之间存在较强的负相关。
常识补充说明:赤池信息量准则,即Akaike information criterion、简称AIC,是衡量统计模型拟合优良性的一种标准。赤池信息量准则建立在熵的概念基础上,可以权衡所估计模型的复杂度和此模型拟合数据的优良性。在一般情况下,AIC可以表示为:AIC=2k-2ln(L),其中k是参数的数量,L是似然函数。增加自由参数的数目提高了拟合的优良性,AIC鼓励数据拟合的优良性但是尽量避免出现过度拟合(Overfitting)的情况。所以优先考虑的模型应是AIC值最小的那一个。
6. 研究结果
案例研究:作者选择了澳大利亚的经济不平等作为案例,探讨了经济不平等和影响因素之间的关系,并用地理复杂度来解释传统模型的未知误差。作者选择了五个影响因素,包括性别比例、收入水平、房屋所有权、工业雇员数和工业规模,并计算了这些因素的地理复杂度。
实验设计:作者按照图3所示的流程,先进行相关性检验和多重共线性检验,筛选出与经济不平等相关的变量和地理复杂度。然后,运用了三种传统模型(即多元回归、支持向量回归和地理加权回归)来估计全国范围内的经济不平等,并用地理加权回归来量化地理复杂度对误差的解释程度。最后,将地理复杂度与其他空间指标(如局部Geary’s C和行标准化矩阵的地理复杂度)进行了比较,发现地理复杂度具有更强的误差解释能力。
结果分析:作者根据三种模型的表现,发现地理加权回归模型有最高的拟合优度(R2为0.76),而多元回归和支持向量回归分别为0.47和0.65。作者还发现,地理复杂度可以解释17%-47%的传统模型误差,并且可以提高模型性能。作者还展示了两个选定的地理复杂度(收入和工业雇员)在空间上的分布和变化,以及它们对三种模型误差的空间解释情况。
讨论与结论:作者讨论了地理复杂度指标的优势、局限和潜在应用,以及未来可能的改进方向。作者认为,地理复杂度是一种有用的空间指标,可以增进对复杂地理系统的理解,并在各种空间数据分析领域中有潜在的应用价值。
7. 结论
提出了一个新的空间指标,叫做地理复杂度,来衡量空间依赖性方面的复杂性。地理复杂度是基于Moran指标的,考虑了一个区域和其周围的空间关系,以及周围区域之间的空间关系。
以澳大利亚的经济不平等为案例,探讨了经济不平等和影响因素之间的关系,并用地理复杂度来解释传统模型的未知误差。作者选择了五个影响因素,包括性别比例、收入水平、房屋所有权、工业雇员数和工业规模,并计算了这些因素的地理复杂度。
运用了三种传统模型(即多元回归、支持向量回归和地理加权回归)来估计全国范围内的经济不平等,并用地理加权回归来量化地理复杂度对误差的解释程度。结果表明,地理复杂度可以解释17%-47%的传统模型误差,并且可以提高模型性能。
将地理复杂度与其他空间指标(如局部Geary’s C和行标准化矩阵的地理复杂度)进行了比较,发现地理复杂度具有更强的误差解释能力。作者认为,地理复杂度是一种有用的空间指标,可以增进对复杂地理系统的理解,并在各种空间数据分析领域中有潜在的应用价值。
8. 重要图表
本文由城市地理之光整理而成。
转自:“生态遥感前沿”微信公众号
如有侵权,请联系本站删除!