原名:
MSRF-Net: Multiscale Receptive Field Network for Building Detection from Remote Sensing Images
译名:
MSRF-Net:基于遥感影像的多尺度感受野网络建筑物检测
期刊:TGRS Transactions on Geoscience and Remote Sensing
发表时间:2023.6
DOI:10.1109/TGRS.2023.3282926
1.导言:
建筑信息对城市发展、城市环境评价、违章建筑检测、灾害评估等具有重要意义。随着传感器技术的发展,遥感图像的空间分辨率和时间分辨率不断提高,这使得遥感影像中干扰信息的冗余程度和内部差异也在不断增加。建筑规模多样,材料复杂,形状多样,这也使得建筑的准确提取面临许多难题。
深度学习中的语义分割因其高效和特征学习能力被广泛应用于建筑提取领域。研究人员提出了多种方法将传统的语义分割模型与建筑物的尺度特征相结合。然而,深度学习在特征挖掘过程中由于下采样而丢失了原始图像中的详细信息,容易使提取结果的边缘模糊。为了减轻边缘模糊问题,大多数语义分割网络通过跳过连接将包含大量详细信息的浅层特征传递给解码器。特征金字塔等结构因为可以提取多尺度感受野的特征,同样也被广泛用于目标检测,在多尺度建筑提取中表现出较好的性能。然而,受金字塔层数和路径数量的限制,当建筑尺度变化过大时,模型的性能仍然不能令人满意。
中国石油大学(华东)孙根云教授和赵元昊博士针对目前建筑物提取领域的问题提出了一个具有多感受野特征的建筑物提取网络,并在《IEEE Transactions on Geoscience and Remote Sensing》期刊(IF=8.2)发表" MSRF-Net: Multiscale Receptive Field Network for Building Detection From Remote Sensing Images"为题的论文。
2.研究方法:
对于建筑物的边缘和多尺度问题,本文提出了一种多感受野建筑物提取网络MSRF-Net,它可以精确提取具有精细边界的多尺度建筑物。MSRF-Net的结构如图1所示,它由两部分组成:(1)多尺度感受野特征编码器。(2)多径解码器。
图1 本文提出的框架
(1)非对称残差卷积(ARI)模块
多尺度感受野特征的提取是识别尺度差异大的建筑的关键。在过去的几年里,研究者们提出了大量多尺度策略来提取多尺度建筑。这些方法使得模型参数显著增加,同时也对模型的泛化能力产生负面影响。为了解决上述问题,本文设计了一个高效、高性能的非对称残差卷积模块来提取多尺度感受野特征,具体结构如图2所示。
考虑到不同深度特征的空间尺度差异,本文提出了三个可调参数a1、a2和a3来调整非对称卷积层核的尺度。当特征的尺度越大,特征所包含的空间信息越多,因此,卷积核设置的越大,卷积层捕获特征的性能越好,反之,卷积核越小,卷积层的性能越好。因此,当特征大小大于64时,我们将非对称卷积的核大小设置为3、7和11。否则,非对称卷积的核大小分别设置为3、5和7。
ARI模块采用了非对称卷积,减少了通道数,有效地控制了模型的参数量。此外,ARI模块对大规模特征使用较大的非对称卷积和卷积核,对小规模特征使用较小的非对称卷积和卷积核,可以捕获全局和局部的空间关系,使提取的建筑物的边缘检测更加精确,整体完整性更好。
图2 非对称残差卷积(ARI)模块的结构图
(2)多尺度注意力下采样(MSAD)模块
传统的下样层获取的特征感受野是固定的,使得模型难以捕捉多尺度建筑的空间信息。少数研究结合多尺度方法来获取特征。然而,它们没有考虑不同尺度下特征所包含的空间信息和通道信息。在本节中,我们设计了一个MSAD模块来获取多尺度感受野下采样特征。MSAD模块由MSD和MCD两部分组成。
MSD结构如图3所示。它包含4个下采样层,这有助于模型获得不同建筑的空间信息,使提取结果具有更好的完整性。MSD通过空间注意模块捕获四组下采样特征中的空间局部信息。最后,对多感受野特征进行叠加。MCD的结构如图4所示。与MSD不同的是,MCD使用通道注意机制来代替空间注意机制。通道注意力机制可以自适应地重新校准每个通道的权重,收集全局信息,捕获通道之间的关系,提高表征能力。因此,MCD直接堆叠多尺度感受野特征,然后基于通道注意机制进行特征增强。
图3 多尺度空间注意下采样(MSD)的结构图
图4 多尺度通道注意下采样(MCD)结构图
(3)多路径解码器
解码器是语义分割的重要组成部分,可以恢复特征的空间分辨率。然而,以往研究中的解码器结构简单,且受感受野的限制,这使得解码器无法准确提取多尺度建筑物。因此,本文设计了一种多路径解码器,旨在捕获更多的上下文信息,并通过将特征与多尺度感受野相结合来补偿深层语义特征细节信息的丢失。
多路径解码器的具体结构如图5所示。图5中的灰色特征是MRFF-Encoder中的多尺度特征,引入灰色特征可以有效减轻特征细节信息的丢失。多路径解码器包含三个独立的解码分支,每个分支对输入特征具有不同的感受野。每条解码路径包含两个上样块,每条解码路径的输入特征和输出特征的空间分辨率分别为16 × 16和256 × 256。为了扩大每个分支特征的感受野,本文提出了一个特征组合模块,该模块既补偿了下采样带来的细节信息损失,又降低了浅层特征的噪声影响,进一步扩展了不同路径特征的接受场,具体结构如图6所示。
图5 多路径解码器结构图
图6特征组合模块(a)和上样块结构图(b)
3.实验结果及讨论:
(1)数据集:
本文在三个开放数据集上评估了所提出方法的性能,包括WHU建筑数据集、马萨诸塞州数据集和中国典型城市建筑实例数据集。这些数据集的细节描述如下:
WHU建筑数据集包括航空和卫星遥感图像及其相应的标签图像。它由187,000多座建筑组成,面积超过450平方公里,空间分辨率为0.3米。每张图像大小为512×512像素。总共有8188张
,其中4736张、2416张和1036张分别作为训练数据集、测试数据集和验证数据集。
马萨诸塞州建筑数据集由波士顿地区的151张航拍图像组成。数据集中每个图像的大小为1500×1500像素。它的面积约为340平方公里,分辨率为1米。
中国典型城市建筑实例数据集于2021年发布,数据集中的样本分布在北京、上海、深圳和武汉。原始数据为Google提供的19张卫星图像,地面分辨率为0.29 m,数据集的样本覆盖面积为120平方公里。总共有7260张
,其中5985张作为训练数据集,1275张作为测试数据集。
为了获得更多的数据,充分完成模型的训练,本文将所有数据集中的遥感图像均切割为256 × 256像素的样本。
(2)模型参数量分析
参数k被用来控制特征通道的数量。在不失去一般性的前提下,本文设计了一个实验来探索k对MSRF-Net在典型城市建筑数据集上的性能和复杂性的潜在影响。考虑到准确性和复杂性之间的权衡,参数k被设置为28到40。
具体实验结果如表1和图7所示。k的增加意味着特征将包含更多的特征通道,具有更强的语义信息提取能力。然而,过多的特征通道也会对模型的泛化能力产生负面影响,导致性能下降。因此,随着参数k的增大,模型的性能呈现出先增大后减小的近似趋势。当k = 32和38时,模型性能取得了局部最优结果,为了更好地平衡模型的性能和复杂度,我们在后续实验中将k分别设置为32和38。
表1 不同k值下MSRF-Net在典型城市建筑数据集上的性能、复杂度对比
图7 k的取值对模型参数、性能的影响
(3)多路径解码器有效性分析
为了验证多路径解码器的有效性,本文对不同解码路径的特征图进行了可视化。多径解码器中的特征映射包含了丰富的特征通道。因此,为了更直观地显示特征,本文通过PCA变换将特征映射降维到只包含一个特征通道。
图8显示了从所提出的具有不同路径的多径解码器中提取的特征映射。所有特征映射的大小为256 × 256。从结果对比可以发现,不同解码路径提取的特征图具有不同的接受野,呈现出不同的多尺度建筑特征图。感受野较小的特征图在提取小型建筑物时表现更好,但在提取大型建筑物时可能导致空洞。相反,具有较大感受野的特征图可以很好地提取大型建筑物,但可能会丢失详细信息和建筑物边缘模糊。多路径解码器结合了不同解码路径下的多尺度感受野特征,可以捕获更丰富的语义信息,在提取多尺度建筑时表现更好。
图8 从具有不同路径的多径解码器中提取特征映射
(4)模型性能评估
为了评估所提出的网络的性能,我们在WHU建筑数据集、马萨诸塞州建筑数据集和典型城市建筑数据集上进行了对比实验,将MSRF-Net与最新的建筑检测方法(包括FCN、SegNet、U-Net、PSPNet、HRNetv2、EU-Net和MAP-Net)进行了比较。
实验结果列于表2-4,最好的记录用粗体标出。可以看出本文方法的OA、F1和IoU在三个数据集的所有比较方法中都是最优值。具体分类结果如图9-11所示,总体而言,所提出的MSRF-Net的更好性能是显而易见的。MSRF-Net不仅可以准确地提取多尺度建筑物,而且可以更准确地保持建筑物的边缘。此外,MSRF-Net有效地控制了错误和缺失分类的问题。
图9 其他先进方法和本文方法在马萨诸塞州数据集上的结果对比
图10 其他先进方法和本文方法在WHU数据集上的结果对比
图11 其他先进方法和本文方法在中国典型城市数据集上的结果对比
表2 其他先进方法和本文方法在马萨诸塞州数据集上的精度对比
表3 其他先进方法和本文方法在WHU数据集上的精度对比
表4 其他先进方法和本文方法在中国典型城市数据集上的精度对比
(5)消融实验
为了探讨MSAD模块、ARI模块和多径解码器对MSRF-Net的贡献,本文在马萨诸塞州数据集上进行了去除和改变网络各关键组件的消融实验。实验结果如表5和图12所示。MASD和ARI 模块都通过提取多尺度特征扩大了编码部分的特征接受场,因此,添加MASD和ARI模块后,IoU分别提高了0.86%和0.5%,同时也有效提高了模型对多尺度建筑物的提取。
表5 消融实验的精度对比
图12 消融实验在马萨诸塞州数据集上的结果对比
(6)模型复杂度对比
为了验证MSRF-Net在性能和复杂性,本文在典型城市建筑数据集上比较了相关方法的F1、Para、IoU和FLOPs。定量结果如表6所示,从表中可以看出,与其他方法相比,MSRF-Net使用较少的卷积层数来提取多尺度感受野的特征。虽然多径解码器有三个分支,但每个解码器只包含五个卷积层。因此,MSRF-Net包含较少的参数。MAP-Net的FLOPs仅大于FCN和EU-Net。与精度第二高的MAP-Net相比,MSRF-Net的Para (k=32)是MAP-Net的1/3,FLOPs是MAP-Net的1/6。与其他相关方法相比,MSRF-Net可以保持更高的精度和更低的复杂度。
表6 在典型城市建筑数据集上相关方法F1、IoU、Para和FLOPs的比较
4.总结:
本文提出了一种多尺度感受野网络(MSRF-Net)来提取多尺度建筑物。在MSRF-Net中,提出了多尺度注意力降降模块和非对称残差初始化模块,以丰富特征的接受域。此外,设计了一种多径解码器,用于恢复特征的空间分辨率和捕获多尺度上下文信息,有助于多尺度建筑物的提取。在三个数据集上的实验结果表明,所提出的方法优于许多最先进的方法,包括HRNetv2、EU-Net和MAP-Net。
5.引用格式:
Y. Zhao, G. Sun, L. Zhang, A. Zhang, X. Jia and Z. Han, "MSRF-Net: Multiscale Receptive Field Network for Building Detection From Remote Sensing Images," in IEEE Transactions on Geoscience and Remote Sensing, vol. 61, pp. 1-14, 2023, Art no. 5515714, doi: 10.1109/TGRS.2023.3282926.
转自:“科研圈内人”微信公众号
如有侵权,请联系本站删除!