以下文章来源于经纬石旁话遥测 ,作者龚健雅等
本文改编自学术论文《面向多源数据地物提取的遥感知识感知与多尺度特征融合网络》
刊载于《武汉大学学报·信息科学版》2022年第10期
龚健雅 1 张 展 2 贾浩巍 2 周 桓 3
赵元昕 1 熊汉江2
1 武汉大学遥感信息工程学院,湖北 武汉,430079
2 武汉大学测绘遥感信息工程国家重点实验室,湖北 武汉,430079
3 香港理工大学土地测量与地理资讯学系,香港,999077
龚健雅
博士,教授,中国科学院院士,长期从事地理信息理论和摄影测量与遥感基础研究。gongjy@whu.edu.cn
通讯作者
张展
博士生。zhangzhanstep@whu.edu.cn
摘要
遥感地物自动提取是遥感智能解译中的关键问题,对空间信息的理解和知识发现具有重要意义。近年来,使用全卷积神经网络(fully convolutional networks, FCN)从高分影像和三维激光雷达(light detec⁃tion and ranging, LiDAR)数据中提取地物信息因取得了较好效果而受到广泛关注。现有 FCN 网络在地物提取精度和效率等方面仍存在不足,由此提出一种基于多源数据的遥感知识感知与多尺度特征融合网络(knowledge-aware and multi-scale feature fusion network, KMFNet)。在网络编码器端融入遥感知识感知模块(knowledge-aware module, KAM),高效挖掘多源遥感数据中的遥感知识信息;在网络编码器和解码器之间添加了串并联混合空洞卷积模块(series-parallel hybrid convolution module, SPHCM),提高网络对地物多尺度特征的学习能力;在解码器端使用了渐进式多层特征融合策略,细化最终的地物分类结果。基于公开的ISPRS 语义分割标准数据集,在 LuoJiaNET 遥感智能解译开源深度学习框架上将 KMFNet 与当前主流方法进行了对比。实验结果表明,所提方法提取出的地物更为完整,细节更加精确。
引用
龚健雅,张展,贾浩巍,等 . 面向多源数据地物提取的遥感知识感知与多尺度特征融合网络[J]. 武汉大学学报·信息科学版,2022,47(10):1546-1554.DOI:10.13203/j.whugis20220580
遥感影像的地物自动提取是遥感智能解译领域的一个重要研究课题,在国土资源规划、自然环境监测、智慧城市、国防等领域发挥了重要作用。近年来,对地观测技术的快速发展极大地提高了遥感数据的获取质量和更新速度,使得多源遥感数据变得广泛可用,如高分影像和三维激光雷达(light detection and ranging,LiDAR)等数据为高精度地物信息提取提供了巨大机遇。然而,细节信息复杂、信息量冗余的多源遥感数据也同时给地物提取任务带来了一系列问题与挑战 。
传统基于单一高分影像的地物自动提取方法主要包括基于像元方法与面向对象方法两大类。前者主要聚焦于像素的光谱、纹理等特征信息,使用基于阈值或基于特征空间聚类的方法来进行地物提取;后者以地物斑块作为最小分析对象,利用地物斑块的光谱特征、几何特征和多个特征组合来实现地物提取,其主要包括基于几何边界特征的方法、基于区域分割的方法和基于图模型的方法。随着 LiDAR 技术的快速发展,其获取的三维点云数据的处理理论得到了广泛且深入的研究。传统基于 LiDAR数据的地物自动提取方法有以支持向量机、随机森林等算法为代表的监督学习方法和以随机抽样一致性和霍夫变换等算法为代表的非监督学习方法。在地物提取任务中 ,高分影像可提供丰富的光谱、纹理以及几何等信息,LiDAR数据则可通过其得到的数字地表模型(digitalsurface model,DSM)来提供地物的空间几何信息。基于数据融合的地物提取方法可以充分发挥这两者的数据优势,有效提高地物提取结果的精度和可靠性。然而,传统基于多源遥感数据的地物提取方法仍存在精度有限、算法鲁棒性低等局限。
近年来,基于深度学习的全卷积神经网络(fully convolutional networks,FCN)因具有端到端的强大特征表达和像素级分类能力,在遥感地物提取中取得了很好的效果。目前 ,使用基于编码器-解码器架构的 FCN 模型来学习多 源 遥 感 数 据 中 的 地 物 特 征 能 够 有 效 提 高 地物 提 取 的 精 度 和 可 靠 性。其中,常用的处理方式是将基于 LiDAR 数据得到的DSM 和基于影像得到的归一化植被 指 数(normalizeddifference vegetation index,NDVI)等 作 为 网 络辅 助 或额外的图像特征,或对不同数据源使用多个网络分别进行特征提取后,再进行特征融合来实现地物提取。然而,这种处理方式不仅缺乏对多源遥感数据像元内在知识信息的充分挖掘 ,也增加了模型大小和计算量 ,提升了模型学习难度。此外,在不同遥感场景下地物复杂多变的空间尺寸大小也给模型的特征提取和学习带来了巨大挑战 。尽管目前不少学者基于图像特征金字塔思想,通过设计出的多尺度网络结构极大提升了地物提取精度,但地物的多尺度特征信息仍有进一步挖掘的潜力。
为解决上述问题,本文提出了遥感知识感知模块(knowledge-aware module,KAM)与串并联混合空洞卷积模块(series-parallel hybrid convolu⁃tion module,SPHCM),设计了一种遥感知识感知与多尺度特征融合网络(knowledge-aware andmulti-scale feature fusion network,KMFNet),提升了多源遥感数据的地物提取精度。
1 研究方法
1.1
网络整体架构
KMFNet 总 体 架 构 如 图 1 所 示 。网 络 输 入为 512×512 大小的多波段高分影像(近红外、红光、绿光波段)和 LiDAR 生成的归一化数字表面模 型(normalized digital surface model,nDSM),经 过 网 络 模 型 后 输 出 得 到 相 同 大 小 的 地 物 分类图。
图 1 遥感知识感知与多尺度特征融合网络
KMFNet 网络在编码器端采用深度残差网络 ResNet50作为其基础架构,同时进行了相应改进:(1)前端添加了遥感知识感知卷积模块(详见§1.2),该模块能够灵活、有效地将提取得到的遥感知识显式地融入网络中;(2)在第 5 个网络层,使用了空洞率分别为 2、4、6 的空洞卷积来增大网络的感受野大小,提高网络对地物上下文语义信息的获取能力;(3)在网络编码器端和解码器端之间添加了针对高层次语义特征进行处理的串并联混合空洞卷积模块(详见§1.3),有效提高了网络对于地物多尺度上下文语义特征的学习能力。
在 网 络 解 码 器 端 ,KMFNet 采用了一种渐进式多层特征融合策略来最大程度恢复影像分类结果中的细节信息。该策略共汇总了三支来自编码器端网络的特征信息,包括编码器端的KAM 模块的遥感知识特征 、改进 的ResNet50 模块第2个网络层的浅层特征以及SPHCM 模块的深层次特征。为实现不同类型特征信息的融合,在编码器端将遥感知识特征影像空间大小下采样至 1/4 尺 寸 ,与改进的ResNet50 提供的浅层特征信息一同输入到解码器端。为了减少特征波段数量、提高网络学习效率,在解码器端采用 1×1 卷积和上采样操作来实现浅层特征和深层特征的融合,随后经过 2 层 3×3 卷积和上采样操作 ,得到最终细化的地物分类结果图。
1.2
遥感知识感知模块
本 文 在 网 络 前 端 设 计 的 KAM 由 3 条 不 同网络分支并联组成,其结构如图 2 所示。第 1 条网络分支接受 3 波段影像的输入 ,由 7×7 标准卷积、批量归一化层和激活层组成,第 2 条和第3 条 网 络 分 支 则 分 别 接 受 nDSM 和 NDVI 影 像的输入,它们经 7×7 遥感知识感知卷积层处理得到对应的遥感知识特征图,最后将所有分支的特征进行融合。该模块能够有效挖掘多源遥感数据中像元内在知识信息,将其无缝融入网络模型中。
图2 遥感知识感知模块
KAM 中所用到的遥感知识感知卷积,其主要设计思路是使用了一种以高斯函数模型为计算函数的卷积核,来定量化描述像元间的相似信息,并将卷积核内所有像元对应的函数返回值的均值作为卷积窗口中间像元的输出结果。计算函数和求均值的计算式分别为:
式 中 ,Pk 代 表 特 征 图 上 的 像 元 ;vij 代 表 卷 积 核大小内的所有像元,i、j 分别代表卷积核内像元位置的宽 、高索引 ;v0 代表卷积核中心的像元值;δ 代表高斯函数模型中的标准差项,取值为8.1;n 代表卷积核窗口大小,取值为 7;F ( vij) 代表卷积核内所有像元经过高斯函数运算后的返回值 ;K ( Pk ) 代表 KAM 模块在像元 Pk 处的返回值。
该模型的基本假设为:在卷积窗口大小范围内,与窗口中心像元具有相似值的像元会被认为与其有更大的类别相关性,进而被赋予更大的像元值,从而得到能够表达像元间相似信息的遥感知识特征图,其整体计算过程如图 3所示。
图 3 遥感知识感知卷积运算示意图
1.3
串并联混合空洞卷积模块
为加强网络对各类地物的多尺度及上下文信 息 的 学 习 能 力 ,本 文 在 KMFNet 的 编 码 器 和解 码 器 端 之 间 插 入 了 串 并 联 混 合 空 洞 卷 积 模块 (series-parallel hybrid convolution module,SPHCM)。如 图 4 所 示 ,在 SPHCM 模 块 中 ,网络 编 码 器 端 输 出 的 高 层 次 特 征 图 在 该 模 块 中经过了三条主分支,中间分支通过 1×1 卷积层降低其通道数,并结合了不同空洞率(d=4,8,12,16)的 空 洞 卷 积 层 、1×1 卷 积 层 、归 一 化 层和激活层,这些不同类型的网络层通过串并联的方式结合在一起,在多个网络感受野大小下得到 4 类不同的输出特征图。其他两条分支得到的输出特征图则作为额外添加的输入特征,输入到 SPHCM 模块后端特征融合层内。
在 SPHCM 模块后端,将 6 条不同路径分支输出特征图在相同空间大小基础上进行融合,随后经过 1×1 卷积运算层 、归一化层和激活层,最终输出到网络模型的解码器端。本文提出的 SPHCM 模块能够通过不断叠加和组合空洞卷积层,在不同感受野大小下捕捉地物的多尺度特征,有效提高了其对于各类地物的全局上下文特征信息的挖掘能力。
图 4 串并联混合空洞卷积模块
2 实验与结果分析
2.1
数据集介绍与预处理
本 文 选 用 ISPRS 语 义 分 割 标 准 数 据 集 对各类地物提取方法进行了对比与测试(http://www.isprs.org/commissions/comm3/wg4/seman⁃tic-labeling.html)。该数据集具有多个由不同空间 尺 寸 大 小 地 物(不 透 水 面 、建 筑 、低 矮 植 被 、树木、车辆)组成的复杂城市场景,能够很好地验 证 不 同 地 物 提 取 方 法 的 精 度 和 泛 化 性 。数据 集 主 要 包 括 :(1)高分正射遥感影像 ;(2)与遥感影像对应的 nDSM;(3)基于遥感影像人工标注得到的地物真实类型标签。其中,斯图加特(Vaihingen)数据集原始影像空间分辨率为0.09 m,波茨坦(Potsdam)数据集原始影像空间分 辨 率 为 0.05 m。Potsdam 数 据 集 影 像 含 有 近红外波段、红光波段、绿光波段和蓝光波段,而Vaihingen 数据集影像只含有 3 个波段(近红外、红光 、绿光)。为 保 证 与 Vaihingen 数据集的可比性 ,本 文 只 保 留 了 Potsdam 数据集影像的近红外波段、红光波段和绿光波段作为网络模型的输入。考虑到当前图形处理器(graphics pro⁃cessing unit,GPU)性 能 ,本文分别将这两个数据集随机裁减成 4 200 个 和 12 800 个 512×512像素 的 图 块 ,从中选取部分影像进行实验 ,其基本参数以及训练集、验证集与测试集分配如表 1 所示。
表 1 数据集属性与训练分配
2.2
实验环境与参数设置
FCN 语义分割网络的特征学习过程通常需要大量的训练数据,使用一定的数据增强方法能够有效改善网络的学习效率,同时避免网络的过拟合问题来增强模型的泛化能力。在网络的每一个训练批次中,网络对于每一个影像块随机使用水平翻转、垂直翻转、镜面翻转、转置等数据增强操作。本文训练所使用的目标函数的表达式为:
式中,K 代表类别数量;yi 代表符号函数,如果样本类别是 i,则 yi = 1,否则为 0;Pi 是网络的输出,也是观测样本类别 i的预测概率。
为检验 KMFNet 的地物提取效果,引入了目前 性 能 较 好 、应 用 广 泛 的 GRRNet 、V-FuseNet、DLR、Res-U-Net作为对比方法。这 5 种网络都在 ISPRS 语义分割标准数据集上进行测试,使用相同的训练集、验证集与测试集。本文实验统一在单块 NVIDIA RTX Titan 2080上使用 LuoJiaNET 遥感智能解译开源深度学习框架进行了实现(https://github.com/WHULuo⁃JiaTeam/luojianet)。
在网络的每一个训练批次中,网络使用梯度自动下降(stochastic gradient descent,SGD)策略来进行自动学习与训练。其中,网络设置的初始学习率为 0.000 1,学习率的权重衰减值为 0.000 5,动量值为 0.9,批尺寸大小为 4,训练轮数为 300,网络模型中总的训练循环次数为40 000,当循环次数在15 000 次与25 000 次之间时 ,网络学习率每隔5000 次会减少为当前学习率的 1/10。网络中的初始化参数均使用了 He 初始值方法来进行设置。
KMFNet 的输入数据包括多波段的高分影像 及 其 对 应 的 nDSM,基 于 遥 感 影 像 人 工 标 注得到的地物真实类型标签则作为网络监督训练过程中的真实参考数据。另外,对于遥感知识感 知 模 块 所 输 入 的 NDVI 影 像 ,本 文 基 于 网 络输 入 的 高 分 影 像 ,使 用 LuoJiaNET 框 架 自 带 的NDVI 遥感先验知识提取算子来计算获得。
2.3
精度评价指标
本文使用了语义分割任务中最常用的总体精 度(overall accuracy,OA)和 交 并 比 分 数(in⁃tersection over union,IoU)这 两 类 评 价 指 标 来评价各方法的提取效果,其计算式分别为:
式中,TP(true positive)表示真实为正类且模型预测为正类的样本数;FP(false positive)表示真实 为 负 类 但 模 型 预 测 为 正 类 的 样 本 数 ;FN(false negative)表 示 真 实 为 正 类 但 模 型 预 测 为负 类 的 样 本 数 ;TN(true negative)表 示 真 实 为负类且模型预测为负类的样本数。本文在§2.4中 使 用 的 平 均 交 并 比 分 数(mean intersectionover union,mIoU)可看作每个地物类别 IoU 的平均值。
2.4
实验结果分析
将 GRRNet、V-FuseNet、DLR、Res-U-Net与 KMFNet 在 ISPRS 语义分割标准数据集上进行测试 ,选取了不同遥感场景来进行对比 ,结果如图 5 所示。从图 5 的视觉表现来看,KMF⁃Net 在不同场景下的提取结果与地面真值的相似度最高,所提取地物的整体和边界细节最为完整 ,效果要明显优于其他 4 种对比方法。例如 KMFNet 可以保留建筑物精确的位置信息,其内部出现的空洞较少,提取出的建筑物具有丰富的边界信息,而其他方法则出现了不同程度的建筑物粘粘或边界细节缺失的问题 ;在密集的车辆停放区域 ,由于车辆之间间距小 、密度大,导致其难以被区分,KMFNet 能够很好地区分出不同的车辆。
表 2 为 KMFNet 在 ISPRS 两 个 不 同 数 据 集上的地物提取精度。为了验证本文提出的 KAM和 SPHCM 模 块 的 效 果 ,将 基 于 ResNet50 改 进的编码器-解码器端语义分割框架作为基准网络(Baseline),在 ISPRS 数据集上进行了一系列的消 融 实 验 ,结 果 见 表 3。从 表 3 可 以 看 出 ,在Baseline 上 添 加 KAM 模 块 后 ,网络模型在 Vai⁃hingen 数 据 集 上 的 OA 和 mIoU分别提高了2.76% 和 3.11%;在 Potsdam 数据集的 OA 和mIoU分别提高了 1.01% 和 2.12%。而在 Base⁃line 上同时添加 KAM 模 块 和 SPHCM 模块后,网络模型在 Vaihingen 数据集上的 OA 能达到85.69%,mIoU 能 达 到 72.84%;在 Potsdam 数据集上的 OA 能 达 到 86.67%,mIoU 能达到73.69%。其精度结果相较于 Baseline 有明显提高,可见本文提出模块的有效性。
为了比较 KMFNet 与其他 4 种方法的提取精度,本文在 ISPRS 语义分割标准数据集上进行地物 提 取 ,其 统 计 结 果 见 表 4。由 表 4 可以看出 ,KMFNet 在总体精度上具有更好的表现。在 Vai⁃hingen 数 据 集 上 ,相 较 于 GRRNet、V-FuseNet、DLR、Res-U-Net,KMFNet 的总体精度分别提升了 2.19%、4.63%、1.93%、4.02%;相较于其他方法,对不透水面、建筑、低矮植被、树木这 4 类地物的提取精度最高,对车辆的提取结果略低于DLR。在 ISPRS 的 Potsdam数据集 上 ,相较于GRRNet、V-FuseNet、DLR、Res-U-Net,KMFNet的总体精度分别提升了 1.52%、3.46%、1.75%、4.54%;相较于其他方法,对建筑、低矮植被、树木、车辆这 4 类地物的提取精度最高,对不透水面的提取结果略低于 GRRNet。
Res-U-Net 整合了两种常用网络框架,在网络模型的输出端使用了一个导向滤波后处理模块来优化建筑物提取结果,但是在特征提取阶段没有针对性地进行多尺度特征提取,导致在地物对象提取完整性上表现不佳 。V-FuseNet 注重对多源数据不同特征的融合方式进行挖掘,设计了一种残差融合结构来完成特征融合,但是在网络解码器端没有对地物特征细节进行补充,提取效果有待提升。DLR 在多个分支网络中使用了一种地物对象边界检测机制,在实验中取得了较好的地物提取效果,但在特征提取阶段缺乏对像元间遥感先验知识的显式挖掘,故在建筑物 、植被等地物的提取效果上不如 KMFNet。GRRNet 通过在ResNet50 的基础上引入门控特征标记单元,通过提高网络中特征的传输和学习效率,达到了较高的地物提取精度,但是该方法仅简单地将nDSM 作为高分影像额外的特征波段一起输入到网络中,缺乏对多源遥感数据特征的深度融合,削弱了地物提取的效果。KMFNet 在特征提取阶段使用了 KAM 模块来对像元间的相似信息进行高效、显式地挖掘,对遥感知识特征进行了深度融合;在特征处理阶段引入了SPHCM 模块,增强对不同尺度地物特征的学习能力,故具有最好的提取效果。另外,KMF⁃Net 在网络解码器端使用了一种渐进式多层特征融合策略,极大补充了地物提取结果的细节特征 ,在保证精度的同时具有较好的计算效率。
在性能测试上 ,当训练影像为 1 200 张 、影像大小为512×512 像素、批尺寸为4 时,KMF⁃Net、GRRNet、V-FuseNet、DLR、Res-U-Net 在LuoJiaNET 框架中完成一轮训练的平均耗时分别 为 840.24 s、893.23 s、1 284.33 s、1 547.34 s、1 165.79 s,可见 KMFNet 在性能上具有一定优势。
3 结 语
针对目前FCN 语义分割网络对于多源遥感数据学习效率不高、地物提取结果缺乏细节信息等问题,本文在改进的深度残差网络ResNet50 结构基础上,融入提出的遥感知识感知模块和串并联混合空洞卷积模块,设计了一种遥感知识感知与多尺度特征融合网络KMF⁃Net,同时在网络解码器端采用了渐进式多层特征融合策略,得到了高精度地物提取结果。遥感知识感知模块使用了一种遥感知识感知卷积核来高效、显式地挖掘多源遥感数据中的遥感知识特征。串并联混合空洞卷积模块在6种不同路径的感受野尺寸下捕捉了地物的多尺度特征,加强了网络对于上下文全局信息的学习能力。本文使用LuoJiaNET 遥感智能解译开源深度学习框架,在公开的ISPRS 语义分割标准数据集上对多种主流的地物提取方法进行了大量实验和评估。实验结果表明,与GRRNet、V-FuseNet、DLR、Res-U-Net 这4 种方法相比,KMFNet 能够在多源遥感数据上取得最佳地物提取效果。为进一步提高地物提取的准确率,可尝试在网络中融入更多遥感先验知识。
转自:“测绘学术资讯”微信公众号
如有侵权,请联系本站删除!