原名:FusAtNet: Dual Attention based SpectroSpatial Multimodal Fusion Network for
Hyperspectral and LiDAR Classification
译名:FusAtNet:基于双注意的光谱空间多模态融合网络,用于高光谱和激光雷达分类
期刊:2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW)
发表时间:2020
DOI:10.1109/CVPRW50498.2020.00054
1.研究背景:
随着先进传感技术的出现,同时获取同一潜在现象的多模态数据是可能的。由于这些模态的属性相互补充,它们被广泛地用于遥感领域的多模态学习。由于能够从原始数据中挖掘潜在的表征和特征,许多专门的和传统的技术被用于HSI和LiDAR模态的融合。深度学习正被积极应用于多模态融合领域,但是这种方法的不同模式的特征提取是单独进行的,可能使不同的特征明显不平衡,信息可能不平等地表示。此外,单个提取特征的简单拼接或池化可能具有冗余信息,因此系统可能容易过拟合。注意学习机制的使用在不同的视觉推理任务中表现出显著的性能提升。然而,大多数基于注意的学习都是在单一的模态上进行的,因此只突出了相似的特征。本文设计这样一个网络,从一个模态中提取注意掩模,并使用它来增强其他模态的表征。基于这个前提,设想了多模态注意的想法,其中一个补充模态不仅协同地将相关信息添加到现有模态中,而且还突出了这些被从已有的模态中衍生出的注意力图“忽视”的特征。本文提出了FusAtNet,这是一种基于注意力的多模态融合网络,在给定一个HSI-LiDAR对作为输入时用于土地覆盖分类。本文的方法包括使用HSI中的“自我注意”提取光谱特征,并使用提出的“交叉注意”机制合并多模态注意,该机制使用激光雷达模态推导出一个注意掩模,突出HSI的空间特征。光谱和空间特征之间的相互作用导致一个中间表示,该中间表示通过基于自我注意的学习进一步细化。
2.研究方法
这项工作的目标是利用HSIs中构成的光谱和空间信息以及激光雷达中编码的深度和强度信息,进行基于像素的分类。
(1)模型概述
该模型利用“交叉注意”框架协同探索HSI的特殊空间特性和激光雷达模态的空间/高程特性。注意模块的工作是有选择地突出提取的高光谱特征中的热点,以增加类间方差,从而提高分类精度。该方法分两步实现:首先,将HSI特征通过特征提取器和光谱注意模块进行传递,利用两者的组合来强调HSI特征中的光谱信息;同时,激光雷达特征通过空间注意框架传递,生成的掩模突出了HSI的空间特征。其次,将突出的特征与原有特征进行强化,通过情态提取和情态注意模块进行传递,并将其输出进行组合,明智地突出两个模态的重要部分。然后,生成的特征被发送到分类模块。
图1 . 多模态融合的自我注意vs交叉注意
(2)网络体系结构:
FusAtNet基本上包含六个模块,分三个阶段使用。第一阶段采用高光谱特征提取器、光谱注意模块和空间注意模块,共同从HSI中提取和突出空间光谱特征。在第二阶段,模态特征提取器和情态注意模块用于选择性地突出情态的特定特征。在第三阶段,模态特定的频谱空间特征被发送到分类模块c。
图2 . FusAtNet的原理图(在Houston数据集上展示)
3.数据集
为了评估我们方法的有效性,本文考虑了三个HSI-LiDAR数据集。
①Houston数据集:该数据集由一个高光谱图像和一个激光雷达深度光栅组成,并在2013年GRSS数据融合大赛中介绍。HSI由144条高光谱带组成,波长为0.38 ~ 1.05 m,每个光栅尺寸为349×1905,空间分辨率为2.5 m。共有15029个groundtruth样本,分布在15个类中,分为训练集和测试集,分别包含2832和12197像素。
图3 . Houston高光谱和激光雷达数据集与分类地图
②Trento数据集: 该数据集是使用AISA鹰传感器在意大利特兰托的农村地区收集的。HSI由63条波长为0.42 ~ 0.99 μ m的波段组成,激光雷达由2个显示高程数据的光栅组成。每个波段的尺寸为166 × 600,空间分辨率和光谱分辨率分别为9.2 nm和1.0 m。图像共有6个类,其中30214个像素的ground truth可分为819个训练像素和29395个测试像素。
图4 . Trento高光谱和激光雷达数据集与分类地图
③MUUFL数据集: 该数据集于2010年11月在密西西比州长滩的南密西西比大学海湾公园校园内获得。HSI图像最初包含72个波段。但是由于噪声的原因,省略了开头和结尾的四个波段,总共64个波段。激光雷达模式由两个仰角光栅组成。所有的波段和光栅是共同注册的,获得总大小325×220。共有53687个groundtruth像素,包含11个类。
图5 .MUUFL高光谱和激光雷达数据集与分类地图
4.研究结果
(1)数据集验证
本文提出的方法分别在Houston、Trento和MUUFL数据集(表1、2和3)上进行了验证。在所有的案例中,本文所提的方法都优于所有先进的方法,在所有途径中都有显著的优势,无论是OA (Houston、Trento和MUUFL数据集的准确性分别为89.98%、99.06%和91.48%),AA(各自的值分别为94.65%、98.50%和78.58%)或κ。
表1 . Houston数据集的精度分析(%)
表2 . Trento数据集的精度分析(%)
表3 . MUUFL数据集的精度分析(%)
(2)消融实验
通过迭代删除每个注意模块来评估模型的性能(表4)。很明显,在没有注意模块中的任何一个人的情况下,模型往往表现不佳。此外,也证明了激光雷达模态的空间特性的重要性,因为对于所有三个数据集,只有基于激光雷达的空间注意模块比基于HSI的光谱注意模块提供了更好的精度。
表4 . 通过改变所有数据集上的注意层进行消融研究(准确度为%)
表5显示了在没有数据增强的情况下训练我们的方法的性能。由于我们的模型相当深入,当不对训练样本进行增强时,性能会下降。Houston数据集的这种下降幅度最大(4.76%),因为与其他数据集相比,它拥有最多的特征数量。因此,它需要相对较多的迭代才能收敛,并具有较高的精度。
表5 . 有无数据增强训练的消融研究(准确度为%)
对所有数据集进行了额外的消融研究,以检查减少训练规模的效果,然后评估我们的模型的性能(表6),随着训练样本数量的减少,准确率逐渐降低,进一步加强了深度学习模型对数据的高需求。
表6 . 通过改变MUUFL数据集上的训练样本的比例来建模性能(准确度为%)
5.研究结论
本文介绍了一种新的融合HSI和激光雷达数据的网络,以生产改进的土地覆盖地图。我们的网络称为FusAtnet,明智地利用不同的注意学习模块来学习给定的两种输入模式的联合特征表示。为此,我们提出了交叉注意的概念,即一个给定模态的特征学习流受另一个模态的影响。在多个数据集上得到的结果证实了所提出的融合网络的有效性。由于FusAtNet的通用特性,它可以扩展,以最小的开销支持各种不同的模式。
6.文章引用格式
Mohla S, Pande S, Banerjee B, et al. FusAtNet: Dual Attention based SpectroSpatial Multimodal Fusion Network for Hyperspectral and LiDAR Classification[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 416-425.DOI:10.1109/CVPRW50498.2020.00054
转自:“科研圈内人”微信公众号
如有侵权,请联系本站删除!