佳作分享| TGRS：大核光谱空间注意力网络用于高光谱分类

2023/7/21 11:39:14　阅读：44　发布者：

原名：Large Kernel Spectral and Spatial Attention Networks for Hyperspectral Image Classification

译名：大核光谱空间注意力网络用于高光谱分类

期刊：IEEE Transactions on Geoscience and Remote Sensing

发表时间：2023.7

DOI：10.1109/TGRS.2023.3292065

1. 导言：

目前，长程的光谱和空间依赖已被大量文章证明是高光谱图像(HSI)分类的重要特征。Transformer具有优越的长程信息表征能力，因此当今基于transformer的方法获得了广泛的关注。然而，现有的基于transformer的方法仍然面临两个关键问题，它们阻碍了HSI分类性能的进一步提升：1）将HSI视为一维序列，忽略了HSI的空间特性；2）没有充分考虑光谱信息与空间信息之间的依赖关系。

为了解决上述问题，本文首次采用大核卷积来捕获HSI的长程三维特性。具体来说，本文首先提出了一个光谱空间注意力模块，以实现在保持HSI三维结构的前提下，有效地挖掘三维光谱空间特征。该模块利用大核三维卷积进行注意力操作（LKA）并利用卷积前馈（CFF）挖掘抽象表达，以较低的计算压力灵活地强调、建模和利用三维特征的长程依赖关系。最后，光谱空间关注模块中的特征被输入到分类模块中进行特征分类。为了验证所提出的分类方法的有效性，在四个广泛使用的HSI数据集上进行了实验。实验表明，LKSSAN是一种有效的HSI长程三维特征提取方法。

本工作由中国石油大学（华东）孙根云教授、潘兆杰同学、北京师范大学闫凯副教授等多位学者合作完成，相关论文已于《IEEE Transactions on Geoscience and Remote Sensing》期刊(IF=8.2)发表，论文题目为 Large Kernel Spectral and Spatial Attention Networks for Hyperspectral Image Classification。

2. 研究方法：

本文提出的LKSSAN是一种基于patch的注意力HSI分类网络，如图1所示，该网络包括空间patch数据准备、光谱空间注意力模块和分类模块三个部分。在数据输入中，将三维patch作为模型的输入，更有利于模型利用分类所必需的局部特征。光谱空间注意力模块中引入LKA和CFF，通过自适应加权不同像素块来引导网络更加关注输入数据中最具信息量的长程3D特征。在分类模块中，SMLP对光谱空间注意力模块提取的具有长程光谱和空间依赖的三维特征图进一步细化和增强以完成最终的分类。

图1. LKSSAN结构图。LKSSAN的核心是光谱空间注意模块和分类模块，其中光谱空间注意模块有两个核心组件：LKA和CFF。

A．光谱空间注意力模块

三维光谱空间特征对于提升高光谱分类精度至关重要。虽然以往的研究将空间语义信息和长程光谱相关特征用于HSI分类，但忽略了光谱与空间特征之间的关联信息。本文设计了一个遵循模块化设计的光谱空间注意力结构，一个基础块由尺度扩展块、混合块和层归一化三部分组成。

1）尺度扩展块

为了挖掘空间和光谱相关特征，首先将特征输入尺度扩展块以增加patch的通道数量和空间尺度，如图2所示。尺度扩展块首先使用卷积核大小为2的空间深度卷积来扩展patch的空间尺度，然后使用通道卷积来扩展patch的通道维度。尺度扩展模块构造简单，但是能够为后续特征挖掘提供了更大的特征空间。需要注意的是，虽然卷积在尺度扩展过程中只能影响3Dpatch的边缘特征，但经过基础块处理后，该边缘特征的影响范围将得到有效扩展。

图2. 尺度扩展块流程图。

2）利用三维特征的大核关注

LKA首先使用1×1卷积来处理特征以提高模型的灵活性；其次，采用GELU对非线性特征进行建模；然后，利用大核卷积分解，通过计算像素间的光谱和空间相关性，得到三维光谱-空间权重图。权重图中每个像素块都基于卷积建模相同的局部统计特性，通过加权将其与邻域特征融合，从而有效抑制高频噪声，增强关键的长程依赖关系。最后，进行残差连接和1×1卷积得到LKA的输出。

LKA可以通过大核卷积分解，以较小的计算代价和参数捕获长程关联信息。LKA的架构如图3所示，它由两个1×1卷积、一个激活函数和一个频谱空间注意组成。LKA结合了卷积和自注意力的优点，考虑了局部上下文空间信息和大感受野，实现了三维的光谱空间注意力。

图3. LKA用于光谱空间特征学习。(a) LKA在LKSSAN的详细结构。(b)使用LKA时特征图的变化。

3）基于CFF的光谱与空间特征融合

注意力与前馈相结合的机制已被transformer证明是一种有效提升模型性能的策略，该组合可以增强长程信息之间的信息交换。与transformer不同，光谱空间注意模块用CFF代替前馈（FF），如图4所示。CFF与FF的不同之处在于，CFF通过添加深度卷积对每个通道的空间信息进行编码。因此，CFF能够实现每个像素的光谱信息和空间信息的权值融合，并有效捕获特征在空间维度上的局部统计信息。

图4. FF和CFF的结构。（a）FF，（b）CFF，（c）CFF的拓展视图。

B.分类模块

在光谱空间注意力模块完成光谱空间特征提取和融合后，本文设计了简易的多层感知机分类器（SMLP）去充分利用这些信息。SMLP由全局平均池化和FC组成。这种简单的分类器可以保持所获取特征的完整性，更有利于光谱空间关注模块的优化。

在模型训练过程中，本文引入Focalloss来抑制样本不平衡对模型训练的影响。Focal Loss 在执行多分类算法训练时可以使用以下公式计算：

经过损失函数和反向传播算法对模型的优化，最终LKSSAN即可输出每个像素的预测类。

3. 实验结果：

A．实验数据

休斯顿数据集(UH2018)：UH2018包含501015个标记像素，具有20个地物类别。该数据库包含601 × 2385像素，1 m地面采样距离(GSD)， 48个光谱波段，波长范围为380 ~ 1050 nm。

黄河口滨海湿地(YRE)：利用高分5号卫星在黄河口滨海湿地上获取的高光谱数据集。整幅图像包含740 × 761像素，每像素分辨率为30米。YRE滨海湿地图像有8类地物，296个光谱带。

帕维亚中心数据集(PC)：该HSI立方体由1096 × 715像素组成，在430-860 nm范围内具有102个波长波段，共有9类不同的土地覆盖，分辨率为1.3 m。

WHU-Hi-HongHu数据集(WH)：WH数据集图像尺寸为940 × 475像素，空间分辨率为0.043 m，由270个波段组成，范围为400 ~ 1000 nm。该场景由22个类组成，主要用于验证模型在精细农业分类中的性能。

对于样本的设置，除UH2018数据集每类选择100个样本进行训练外，其余数据集中每类地物的训练样本数均为各类样本总数的0.1%。

B. 参数敏感度分析

1）PCA主成分数选择的影响

为了减少光谱信息的冗余，本文在初始阶段对HSI进行PCA变换，并选择一定数量的主成分(PC)进行后续处理。因此，选择的PC数量在很大程度上影响模型的性能。图5(a)显示了OA与PC数量的关系。可以观察到，除了YRE数据集，其他数据集都随着PC数量的增加而上升，然后趋于稳定。因此，可以推测，只有少数PC对模型性能有影响。此外，OA在YRE数据集上的变化相对稳定，这表明当PC数量设置在{5，10，15，20，25，30，35，40}范围内时，对其性能的影响较小。根据以上分析，本文最终将PC数量设置为10，以平衡模型在每个数据集上的性能，减少操作负担。

2）patch尺寸的影响

LKSSAN是一种基于patch的CNN模型，对于patch大小的分析至关重要。图5(b)显示了patch空间大小对所提网络OA的影响。尺寸大的patch可以包含更多的空间上下文信息，但过大的patch也会包含更多的噪声，这会对中心像素的空间特征分析产生不利影响。遥感影像的关键光谱空间信息主要存在于局部。因此，在patch大小增加到一个临界值后，如果大小继续增加，有效信息不会增加，而且会因冗余信息过多而降低准确性。需要注意的是，PC数据集中OA的变化并不符合其他数据集中OA的变化趋势，而是在更高精度范围内，随着patch大小的增加，OA逐渐减小。这一结果进一步证实了该模型的感受野不应尽可能的大，不同分辨率、不同场景的图像适用于不同的patch尺寸。在UH2018、YRE、PC和WH数据集上，12、10、2和16个patch大小分别可以获得最佳效果。

图5. (a) pc的数量，(b) Patch的大小，(b)训练样本的数量对四个数据集分类准确率的影响。

3）样本数量的影响

样本不足是HSI分类的一个重要问题，训练样本数量的变化往往会对模型产生巨大的影响。因此，本文分析了不同训练样本数量下LKSSAN的准确率。本文在定量分析阶段对UH2018数据集中的每个类别取100个训练样本，其他数据集中使用的训练样本均根据样本总数按比例获取。为了使同一数据集上不同实验的样本分布保持一致，UH2018数据集上各类别样本的变异范围为{20，40，60，80，100，120}，而其他数据集上训练样本的变异范围为{0.05%，0.1%，0.2%，0.5%，1%，2%}。图5(c)显示了不同训练样本数量下的性能。

根据实验结果，可以知道在PC数据集的场景下，依靠0.05%的训练样本，模型的OA可以优于95%。在YRE和PC数据集中，如果准确率高于95%，则只需要1%的训练样本。此外，在UH2018数据集中，当每种类型仅取40个样本时，该模型的性能优于70%，这表明该模型具有强大的抵抗样本分布不平衡的能力。然而，在训练集为80的UH2018数据集上的性能不如60的UH2018数据集，这表明该模型在样本分布不平衡的小样本数据集上的性能有待提高。

4）大核卷积参数的影响

空洞卷积的核尺寸和空洞率将直接影响LKA的空间感受野的大小。因此，在本节将分析大核卷积参数的不同组合对实验结果的影响。表1是将参数设置为{(5，4，2)，(7，6，2)，(7，9，3)，(9，8，2)，(9，12，3)}时，在不同数据集上的实验结果。

为了保证实验的合理性，本文将patch的半径设置为14。根据表1，本文可以直观地看到不同的数据集适用于不同的参数。各数据最优感受野尺寸从大到小为PC、YRE、UH2018、WH，该顺序与基于各数据集最优patch大小从小到大的顺序相同，即最优patch尺寸越小，需要的长程信息越长。之所以会出现这种现象，可能是因为特征分布在该假设空间中呈现出整体的分散和局部的聚集的现象；同时，图像的最优patch尺寸越大，其空间特征集分布的离散值越大，而不同空间特征集中元素之间的离散值越小。虽然在不同的参数设置下，不同的场景和不同空间分辨率的数据得到了最优值，但同一数据集不同组合下得到的结果差异相对较小。因此，不妨将最终参数设置为(7，9，3)。

表1 大核卷积参数对OA的影响，最优结果以粗体显示。

C. 消融实验

LKSSAN技术贡献包括:扩展三维patch空间尺度和光谱尺度的尺度扩展块；学习长程三维表达的LKA；协助LKA进一步利用空间和光谱信息的CFF。本节对数据集进行了大量消融实验，验证LKSSAN中这些组件对HSI分类的有效性，不同结构下的详细分类结果如表2所示。

表2表明，尺度扩展结构虽然简单，但通过扩展数据的光谱和空间尺度，可以方便模型提取光谱和空间信息。此外，当LKA被去除后，模型在YRE和PC数据集上的OA分别降低了1.7%和0.8%，这反映了光谱和空间信息联合提取的重要性。当LKA失去CFF的辅助时，OA值将分别下降到90.89%和96.98%，而没有LKA的CFF也无法获得优异的性能。

为了验证卷积分解对LKSSAN性能的影响，本文将LKA的权重生成部分替换为等价的三维卷积。显然，在YRE数据集中，LKSSAN的OA比3D-LKSSAN的OA低，而在PC数据集中，LKSSAN的OA比3D-LKSSAN高。虽然LKSSAN和3D-LKSSAN在不同的数据集上各有优势，但相互优势很小甚至可以忽略不计，这表明卷积分解可以有效地取代大核三维卷积来挖掘长程三维光谱空间特征。

表2. 在YRE和PC数据集上结合不同的模块对所提出的样例进行消融分析，最优结果以粗体显示。

D. 算法对比

1）UH2018数据集上的结果

UH2018数据集展示了具有多种地物类别的城市场景，主要用于验证模型在城市场景下进行精细化分类的性能。表3给出了在UH2018数据集上进行五次实验后，各算法得到的各精度指标的均值和标准差。如表3所示，LKSSAN产生最好的OA和kappa。其中，双分支算法的性能最好，而三维算法的性能最差。在对比算法中，DBDA和SSFTT的OA值较高，分别为81.36%和80.42%。相比之下，LKSSAN获得的OA最好，为84.55%，分别高出3.19%和4.13%。

图6显示了所有方法的分类图。可以看出，MSDN、RSSAN、A2S2K的结果受噪声影响严重，其中SSRN、SSUN、ASSMN、SSTN、SSFTT等图像的社区类别误分现象严重。虽然DBDA在比较算法中表现最好，但它的分类图在停车场和汽车之间存在严重混淆。与之相比，LKSSAN算法得到了光滑的分类图，具有最佳的可视化效果。

表3. 不同分类方法在UH2018数据集上的精度值，最优值以粗体显示。

图6. 不同方法在UH2018数据集上的分类图。

2）YRE数据集上的结果

在所有实验数据集中，YRE数据集光谱覆盖范围最广、光谱数量最多、空间分辨率最低，主要用于验证基于卫星影像的滨海湿地分类模型的性能。表4给出了各算法在YRE数据集上的实验结果。从表4中我们可以发现，所有算法在这个数据集上都获得了很好的性能。通过对比，LKSSAN得到了最优的OA和最佳kappa，直接证明了LKSSAN可以缓解训练数据不平衡的问题，也间接体现了三维光谱空间提取方法在基于卫星图像的遥感目标识别中的优势。

图7为各算法在YRE数据集上的实验图。结果表明，SSRN、MSDN、DBDA、A2S2K和SSFTT受条带噪声影响较大，而RSSAN、ASSMN和SSTN保持细节较好，但其分类图左上角的柽柳受噪声影响较大。基于3D特征提取的模型SSUN具有较好的细节保留性，但底部的地物存在误分类问题，LKSSAN对各种特征识别更加均衡，但仍存在较弱的条带现象。

表4. 不同分类方法在YRE数据集上的精度值，最优值以粗体显示。

图7. 不同方法在YRE数据集上的分类图。

3) PC数据集上的结果

PC数据集显示的是类别较少并存在拼接区域的城市场景，主要用于验证模型在多尺度粗粒度情况下的分类效果。表5显示了所有算法在PC数据集上的结果。结果表明，除RSSAN和MSDN算法外，其余算法的OA均优于93%，这可能表明图像的光谱质量高，分类难度低。LKSSAN的PA均优于80%，推测该模型可以抵抗样本不平衡。虽然DBDA获得最高的AA和kappa，但与LKSSAN的差异较小。此外，LKSSAN的训练速度比DBDA要快，因此，LKSSAN在整体性能上具有最好的量化指标。

各算法的分类图如图8所示。为了便于定性评价，本文扩大了分类图中的白框区域。MSDN、RSSAN、ASSMN、DBDA和SSFTT分类图不能有效反映该地区植被的空间分布。由图8(a)可以发现，非住宅区域除了树木外，还存在大量的草甸和裸土，但SSRN和SSUN将这两类误分类为树木。因此，本文可以推断出长程光谱和空间信息的联合挖掘有助于缓解特征分布空间规律性差的场景。此外，LKSSAN在没有标签的区域内获得了平滑的图像，这表明该算法还可以有效地缓解空间自相关问题。

表5. 不同分类方法在PC数据集上的精度值，最优值以粗体显示。

图8. 不同方法在PC数据集上的分类图。

4) WH数据集上的结果

WH数据集是无人机获取的超高空间分辨率高光谱数据，具有众多的农业地物类别，每种类别仅提供其全部标签的0.1%用于模型训练。在本节中，本文使用WH数据集来验证模型在小样本情况下使用高空间和光谱分辨率进行细粒度农业分类的性能。所有模型在WH数据集上的实验结果如表6所示。显然，LKSSAN具有巨大的优势，OA比对比算法高31.77% ~ 2.68%。

图9显示了用于模型定性分析的各个模型的分类图。由图9可以看出，MSDN、RSSAN、ASSMN、A2S2K受噪声影响最大，SSRN、SSUN、SSTN、SSFTT分类图左上角区域特征混淆严重。虽然DBDA分类图的可视化效果最好，但以GT图为基准，我们可以识别出LKSSAN获得的最佳图像质量。除此之外，我们可以发现，虽然三维提取模型的整体性能较差，但分类图中局部目标之间的边缘得到了较好的保护。结合LKSSAN在WH数据集上的表现，可以推断三维光谱空间特征提取对于农业精细分类至关重要。

表6. 不同分类方法在WH数据集上的精度值，最优值以粗体显示。

图9. 不同方法在WH数据集上的分类图。

5) 模型复杂度对比

从表7可以看出，RSSAN的参数最少，但是轻量级的结构会造成性能损失。在双分支网络中，A2S2K和DBDA的参数较少。与双分支模型相比，基于变压器的方法参数较少，性能较差。此外，LKSSAN在每个数据集上的性能最好，但与其他方法相比，它需要更多的参数。幸运的是，LKSSAN的参数与最先进的算法之间的差异很小。结果在一定程度上证实了LKSSAN在实际应用中的可行性和价值。

表7. YRE数据集上不同基于深度学习方法的可训练参数，最好的以粗体显示。

4.实验结论：

LKSSAN与已有的算法利用transformer进行长程信息的挖掘不同。基于HSI“图谱合一”特性，LKSSAN首次利用大核三维卷积对HSI特征进行联合处理，实现高质量长程光谱与空间特征的挖掘与利用，在多个数据集上获得优异的表现。

该方法可以通过大核三维卷积挖掘长程特征，有效地解决HSI分类领域长程三维依赖挖掘的难题。在特征提取方面，本文设计了一个光谱空间注意力模块，该模块利用三维注意力与卷积前馈从尺度扩展块输出的三维patch中提取长程的三维表征，有效突出和模拟了关键的三维特征。此外，为了充分利用长程三维信息，分类模块利用简易的SMLP对信息进行高效融合，以获得高质量的分类图。

虽然UH2018、YRE、PC和WH数据集上的实验，证明了LKSSAN的优越性能，但是仍存在不足之处。尽管LKSSAN在各种复杂场景下都能获得较高的分类精度，但在解决训练数据不足问题和减少计算负担方面的能力仍有待提高。未来，可以引入更多轻量级结构来提升HSI分类速度，并建立半监督模型来缓解训练数据不足的问题。

5.引用格式：

G. Sun， Z. Pan， A. Zhang， X. Jia， J. Ren， H. Fu， and K. Yan， "Large Kernel Spectral and Spatial Attention Networks for Hyperspectral Image Classification，" IEEE Trans. Geosci. Remote Sens.， pp. 1-1， 2023， doi: 10.1109/tgrs.2023.3292065.

转自：“科研圈内人”微信公众号

如有侵权，请联系本站删除！

投稿问答最小化 关闭

佳作分享| TGRS：大核光谱空间注意力网络用于高光谱分类

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

佳作分享| TGRS： 大核光谱空间注意力网络用于高光谱分类

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭

佳作分享| TGRS：大核光谱空间注意力网络用于高光谱分类