投稿问答最小化  关闭

万维书刊APP下载

前沿资讯| 南京大学地理与海洋科学学院​杜培军教授:一种联合空谱特征的高光谱影像分类胶囊网络

2023/9/19 10:20:37  阅读:84 发布者:

以下文章来源于智绘科服 ,作者测绘学报

一种联合空谱特征的高光谱影像分类胶囊网络

杜培军1,2,3

, 张伟1,2,3, 张鹏1,2,3, 林聪4, 郭山川1,2,3, 胡泽周4     

1. 南京大学地理与海洋科学学院,江苏 南京 210023;

2. 自然资源部国土卫星遥感应用重点实验室,江苏 南京 210023;

3. 江苏省地理信息技术重点实验室,江苏 南京 210023;

4. 南京市测绘勘察研究院股份有限公司,江苏 南京 210019

基金项目:国家重点研发计划(2022YFC3800802);国家自然科学基金(42271472)

摘要:高效稳定的深度学习分类器有助于提升高光谱遥感影像的分类精度。针对卷积神经网络标量式神经元特征表达能力有限、无法有效建模特征之间空间层次结构关系的不足,设计了一种考虑数据图谱合一特性的端到端高光谱胶囊网络(H-CapsNet)H-CapsNet主体由编码器(卷积层、PrimaryCaps层及DigitCats)和解码器(全连接层)组成,通过在网络输入端嵌入通道和空间注意力模块,以此增强模型对空谱特征的抓取和识别,进而提升网络对特征的聚焦和表达能力。以资源一号02D卫星获取的张家港高光谱影像及公共数据集University of PaviaUniversity of Houston影像为例进行试验,将H-CapsNet网络与传统机器学习算法和多个深度学习网络进行对比。试验结果表明,在3景不同分辨率的高光谱影像上,H-CapsNet分类网络均取得了最优的分类效果,总体精度相较于其他方法分别提升了2.36%~7.67%0.16%~11.8%1.75%~15.58%H-CapsNet网络对小像素邻域具有较好的适应性,当图像块尺寸有限时,仍可以取得相对理想的分类结果。

关键词:胶囊网络    深度学习    高光谱遥感    资源一号02D    土地覆盖分类

引文格式:杜培军, 张伟, 张鹏, . 一种联合空谱特征的高光谱影像分类胶囊网络[J]. 测绘学报,202352(7)1090-1104. DOI: 10.11947/j.AGCS.2023.20220565

DU Peijun, ZHANG Wei, ZHANG Peng, et al. A capsule network for hyperspectral image classification employing spatial-spectral feature[J]. Acta Geodaetica et Cartographica Sinica, 2023, 52(7): 1090-1104. DOI: 10.11947/j.AGCS.2023.20220565

阅读全文:http://xb.chinasmp.com/article/2023/1001-1595/20230704.htm

高光谱遥感影像通过光谱维和空间维以数据立方体形式对地面场景进行综合呈现,因其光谱分辨率高、数据量大、图谱合一等特性[1-4],为精细分类[5-6]、地表参量反演[7-8]、目标探测识别[9-10]、异常及变化检测[11-13]等诸多任务提供了重要支撑。

分类是高光谱遥感影像处理与应用重要的方向之一。由于高维特征、数据冗余、噪声干扰、混合像元和Hughes现象等因素干扰[4-5],一定程度上影响了高光谱影像分类的精度,制约了其深化应用。为了提高高光谱遥感影像分类精度,大量研究从数据质量提升、特征优化、新型分类器设计3个角度进行了探讨。在监督分类任务中,数据质量提升主要包括影像预处理、波段选择及样本库构建[14-15];特征优化包括空间与频率域算子、稀疏表示和深度学习特征提取等[16-18];新型分类器设计则主要包括传统机器学习算法改进、多分类器集成和深度学习网络构建[19-20]

数据/特征优化与传统机器学习算法或多分类器集成相结合是当前主要的分类模式之一。通常的做法是设计区分能力更强的新型特征,如扩展形态学剖面[21]、扩展属性剖面[22]Gabor特征算子[23]、多尺度引导滤波优化的谐波特征集[24]等,然后结合随机森林(random forest, RF)和支持向量机(support vector machine, SVM)等分类器进行分类。基于数据及已有特征集改进传统机器学习算法也是一种常用策略,文献[25]改进旋转森林并将其应用于高光谱影像分类取得了良好的性能。文献[26]针对条件随机场模型存在超平滑而导致细节信息丢失现象,提出了优化的空-谱融合条件随机场分类方法。尽管这种分类模式大大提升了高光谱影像的分类精度,但所设计的特征在面对复杂场景时存在适应性差的问题。随着深度学习在遥感领域的兴起和大规模应用,传统机器学习算法也受到了重大的挑战。

深度学习在图像融合、场景分类、土地利用/覆盖分类等方面均取得了重要进展[27-28],在高光谱影像分类领域也已有成功应用[29-30]。常用的深度学习网络有卷积神经网络(convolutional neural network, CNN)、循环神经网络(recurrent neural network, RNN)、堆叠自编码器(stacked auto-encoder, SAE)、深度置信网络(deep belief network, DBN)等。其中,基于CNN的网络从空间尺度对图像进行特征提取,1D-CNN2D-CNN3D-CNN等在高光谱影像分类任务中均取得良好的性能[29, 31]。然而这些分类网络也存在局限性:①RNNDBN等无法直接处理影像,需将具有空间信息的影像转为一维向量的形式输入,对于高光谱影像而言,向量化操作容易丢失影像中的空谱联合信息。②基于CNN的网络采用标量式的神经元,导致特征表达能力有限,对空间层次结构关系感知能力弱,且难以充分挖掘特征的旋转不变性。

针对CNN等网络存在的问题,文献[32]首次提出胶囊(Capsule)概念,随后于2017年正式提出胶囊网络模型(capsule networkCapsNet)[33]。近年来,胶囊网络得到广泛应用,它使用动态路由和向量化神经元,可以捕捉空间层次结构关系并保持旋转不变性,能有效建模对象特征的实例化参数,在计算机视觉通用数据集上获得了较好的效果[33-34]。在高光谱影像分类领域,围绕CapsNet的研究相继被提出,包括CapsNet适应性应用[35]、结构调整[36-37]、局部优化[38-39]等,均取得了良好的分类性能。然而,对于数据空谱维特征的有效聚焦尚有待提升。因此,考虑到高光谱影像图谱合一特性和联合空谱特征分类的优势,以胶囊网络为基础,开发了一种端到端的高光谱胶囊网络(hyperspectral capsule network, H-CapsNet),通过在模型输入端嵌入空间注意力和通道注意力模块,对输入数据特征进行有效抓取和筛选,进而使网络具有更强的特征聚焦和表达能力。

1 H-CapsNet分类网络与实现

1.1 H-CapsNet分类网络的基本层

设计的H-CapsNet由分类和重构两部分组成,卷积层和胶囊层是其中的关键部分。

1.1.1 卷积层

卷积层中的核心算子为可学习的卷积核,对上一层输入(图像或者特征)进行卷积运算,并逐层提取深度特征。一个卷积层包括多个卷积核,输出多个特征图,单个输出特征图的计算表达式为[40]

 (1)

式中,uβl为卷积层l中第β个通道的激活输出;f(·)表示激活函数,一般为TanhSigmoidReLU等函数[41]vβl是卷积层l中第β个通道的待激活特征,它由前一层特征图uαl1与对应的卷积核kαβl进行卷积求和操作,并通过与偏置bβl相加而获得;Aβ是用于求取vβl的输入特征图子集;“*”表示卷积运算符。

1.1.2 胶囊层

胶囊网络是一种集合特征实例的出现概率与姿态信息来识别对象是否为目标类的神经网络,网络架构中采用向量式的神经元代表胶囊,向量的模与方向分别用于表征实体存在的概率与姿态属性(实例化参数)[31]。胶囊网络的计算主要包括向量神经元的信息传递及动态路由机制。

(1) 向量神经元的信息传递:与传统神经网络采用标量神经元进行信息前向传递不同,胶囊网络中信息以胶囊形式传递,主要流程包括仿射变换、加权求和与非线性激活3部分。仿射变换主要是编码底层胶囊与高层级特征之间抽象的空间位置关系,输入的底层胶囊通过与权重矩阵Wij(i, j=1, 2, , n)相乘从而获取高层级特征。加权求和则利用耦合系数cij(i=1, 2, , nj=1, 2, , n)对高层级特征进行加权并相加,得到高层胶囊所需的输入向量。具体计算公式为[31]

 (2)

式中,ui表示输入的底层胶囊;Wij为权重矩阵;Uj|i表示高层级特征;cij是具有非负性与和为1特质的耦合系数;

为高层胶囊所需的输入向量。非线性激活则利用挤压函数(squash(·))将向量

的模长规范化至区间(0, 1)且保持向量方向不变,使最终输出的高层胶囊vj的模可用于表征对象实体存在概率[31]

 (3)

式中,‖·‖表示L2范数,即向量的模,‖·‖2表示L2范数的平方。

(2) 动态路由机制:动态路由算法的主要作用是更新和确定耦合系数cij,从而解决如何以合适的权重选择性地将目标特征信息从底层胶囊传递至高层胶囊。动态路由算法的运行过程如图 1所示,输入的底层胶囊ui与权重矩阵Wi相乘后获取高层级特征Ui,在此基础上执行softmax归一化、向量加权求和、向量压缩(squash(·))、更新耦合系数等操作,其中过程变量b的初始化值为0。通过多轮迭代,最终获取高层胶囊。

注:输入: u1, u2; 高层级特征: U1, U2; 高层胶囊所需输入向量:

; 过程变量: a, b; 融合系数: c1r, c2r; 输出: v

1 动态路由算法(据文献[31]原理绘制)

Fig. 1 Dynamic routing algorithm (based on reference[31])

图选项

1.2 整体网络架构

H-CapsNet分类网络整体架构如图 2所示,以图像块大小11×11像素为例展示。H-CapsNet在输入端嵌入了空间注意力和通道注意力,并整合了编码器和解码器,其中编码器包括卷积层(Conv)、主胶囊层(PrimaryCaps)和数字胶囊层(DigitCaps),解码器的组成为全连接层。

2 H-CapsNet网络架构

Fig. 2 H-CapsNet network architecture

图选项

受卷积注意力模块[42]的启发,引入空间注意力机制,对于输入的特征数据先进行通道维压缩,即在通道维度上分别进行最大值池化和平均值池化,然后合并提取的两个特征图,进行卷积操作并激活。具体计算过公式为[35]

 (4)

式中,F表示输入的特征数据;AvgPool(·)MaxPool(·)分别表示平均值池化和最大值池化;Conv(·)表示卷积操作,此处卷积核大小为7×7像素;σ(·)表示Sigmoid激活函数;Os为获取的空间注意力值。

通道注意力采用自适应的一维卷积来完成不降维、跨通道间的信息交互,具体结构设计思想来自于ECA-NET[43]。对于输入的数据先进行空间维压缩,即在空间尺度上进行平均值池化,然后考虑当前通道及其k个邻域通道的信息交流,采用一维卷积来实现,如式(5)所示[36]

 (5)

式中,y表示输入的通道特征数据;C1D(·)表示一维卷积;σ(·)表示Sigmoid激活函数;ω为获取的通道注意力值;k表示一维卷积核的大小,由式(6)自适应确定[36]

 (6)

式中,C表示输入数据的通道数;k表示一维卷积核大小; odd表示获取的数值为奇数,此处b=1,γ=2

解码器主要依靠全连接层实现,具体计算方式为

 (7)

式中,x为输入的向量数据;W为权值矩阵;Reshape(·)表示重塑操作;Or表示重构数据。

1.3 损失函数

H-CapsNet分类网络的损失函数由边缘损失和重构损失两者共同构成,其中重构损失发挥正则化作用,即计算解码器的重构输出与原始输入之间差的平方和。具体损失函数如下[31]

 (8)

式中,Lc表示单个胶囊神经元的边缘损失;c为类别数值;Tc是指示函数,当类别为c时,Tc值为1,否则为0m+m-分别表示上边缘阈值和下边缘阈值,前者作用是惩罚分类器预测存在而实际不存在某一类的错误情况,后者作用是惩罚实际存在但分类器预测不存在某一类的错误情况,此处,m+=0.9m-=0.1。λ是稀疏系数,用于调节比重,取值0.5Ltotal表示总损失;I为原始输入;Or为解码器重构输出;δ为权重因子,取值2×10-5

2 高光谱影像及预处理

研究采用3景高光谱影像,分别为公共数据集University of PaviaUniversity of Houston高光谱影像,以及由国产资源一号02D卫星获取的张家港地区高光谱影像。3幅高光谱影像的假彩色合成和相应地面类别参考图如图 3所示,所用训练、测试样本及类别信息见表 1—表 3

3 数据集

Fig. 3 The datasets

图选项

1 University of Pavia高光谱影像类别信息及所用训练、测试样本数量

Tab. 1 Class information and number of training and test samples for hyperspectral images from the University of Pavia

表选项

2 Zhang-jia-gang高光谱影像类别信息及所用训练、测试样本数量

Tab. 2 Class information and number of training and test samples for hyperspectral images from the Zhang-jia-gang

表选项

3 Houston高光谱影像类别信息及所用训练、测试样本数量

Tab. 3 Class information and number of training and test samples for hyperspectral images from the University of Houston

表选项

University of Pavia影像由反射光学系统成像光谱仪(reflective optics system imaging spectrometer, ROSIS)200278日在意大利帕维亚大学获得(https://www.ehu.eus/ccwintco/index.php/Hyperspectral_Remote_Sensing_Scenes)。图像大小为610×340像素,去除12个噪声波段后具有103个光谱波段(波长范围0.43~0.86 μm),空间分辨率为1.3 mUniversity of Houston影像是由ITRES CASI-1500(ITRES compact airborne spectrographic imager 1500)传感器获取的休斯敦大学校园高光谱影像,在2013年地球科学与遥感学会数据融合竞赛中发布[44]。影像尺寸为349×1905像素,波段数为144个,波谱范围为0.38~1.05 μm,空间分辨率2.5 mZhang-jia-gang影像是国产资源一号02D星获取的高光谱影像,由自然资源部国土卫星遥感应用中心提供,获取时间202010月,覆盖范围为江苏省张家港市,相应地面类别标签由团队自行目视解译完成。影像经辐射定标、大气校正、正射校正后进行拼接和裁剪。图像大小1224×1624像素,去除水汽吸收波段后共152个波段,空间分辨率30 m

3 试验结果与分析

3.1 模型参数设置及影响

(1) H-CapsNet参数设置及影响。H-CapsNet参数设置主要分两部分:一部分是训练过程中的通用参数,另一部分是本身的结构参数。训练过程中,采用Adam优化器,初始学习率为0.001,并采用指数衰减学习率的策略,即新的学习率等于初始学习率与τepoch相乘,其中τ为0.8,迭代次数为15,批大小(batchsize)64,图像块大小默认为11×11像素。H-CapsNet分类网络结构参数选择和设置主要针对编码器(ConvPrimaryCapsDigitCaps)。卷积核数量过多或过少均会导致网络冗余,经过多次试验,Conv中卷积核数量设置为32。文献[3334]表明,DigitCaps中胶囊神经元大小通常设置为PrimaryCaps中胶囊神经元的2倍,同时结合相关研究[45]H-CapsNet网络编码器中PrimaryCaps的胶囊神经元大小设置为8DigitCaps的胶囊神经元大小设置为16。此外,对解码器包含的Conv中所用卷积核大小与组合方式进行讨论,以评估对不同影像分类精度的影响。具体而言,卷积核大小分别有:3×35×57×7,组合方式包括单核和多核,H-CapsNet分类网络的其他部分保持不变,详细运算方式见表 4,共有H-CapsNet-AH-CapsNet-BH-CapsNet-CH-CapsNet-D 4种方案。将这些方案分别在3幅影像上独立进行10次试验,获取相应的OA值,图 4展示了OA的箱型统计和正态分布,可以看出,University of PaviaUniversity of HoustonZhang-jia-gang对应的最佳方案分别为H-CapsNet-BH-CapsNet-CH-CapsNet-A,最佳的OA均为单核处理方式,相对应的平均OA值分别为99.37%96.02%94.28%。因此,对于不同的高光谱影像,设置编码器中Conv层的运算方式为对应的最佳方案。

4 H-CapsNetConv层的运算方式

Tab. 4 The operation mode of the Conv layer in the H-CapsNet

表选项

4 4种方案在3幅高光谱影像上的总体精度对比

Fig. 4 OA comparison of four schemes on different hyperspectral images

图选项

(2) 对比模型与评价指标。参与对比的模型包括:SVM[46]RF[47]LSTM[48]1D-CNN[49]Vision Transformer (ViT)[50]S-CNN[51]MSCNN[48]3D-CNN[52]SSUN[48]CapsNet-Base[33]。为了使各模型尽可能达到最优的分类精度,对涉及的相关参数进行调优以使各模型达到最优的分类性能。SVM以径向基函数为核函数,采用格网搜索法确定正则化参数C与核系数γ,搜索范围分别为C{20, 40, 60, 80, 100},γ:{0.001, 0.005, 0.01, 0.05, 0.1, 0.125}RF关键参数同样采用格网搜索法,主要包括决策树数量(number of estimators, NE)和决策树最大深度(maximum depth of estimator, MDE),参数搜索范围为NE{100, 200, 300, 400, 500}MDE{10, 25, 50, 75, 100}。对于不同的深度学习网络,在参照原文献参数基础上,进行参数调优,优化部分参数以使模型分类性能在不同高光谱影像上尽可能达到最优状态,主要参数设置见表 5,其他参数均按默认设置。

5 参与对比的深度学习分类网络主要参数设置

Tab. 5 The main parameter settings of the deep learning classification network involved in the comparison

注:batch size为批大小(一次训练抓取的样本数量)patch size为图像块大小;lr为学习率;epochs为迭代轮次;stride为卷积移动步幅;channels为输入影像波段数;3Dconv1/3Dconv2/3Dconv3表示不同三维卷积层中的卷积核尺寸。其余参数具体含义请参考对应文献。

表选项

用于评价模型的指标包括:每类制图精度、总体精度(overall accuracy, OA)、平均分类精度(average accuracy, AA)Kappa系数(κ)

3.2 定量与定性分析

不同方法分别在3景高光谱影像上进行分类性能测试,统计精度评价指标。所有试验的运行环境为配备128 GB内存、10Intel Core i9-9900X CPUNVIDIA GeForce RTX 2080Ti GPU的台式工作站,程序均基于Python语言实现,评价结果值(平均值±标准差)是模型在数据集上独立运行10次获取的,所使用的深度学习库包括PytorchKeras。具体结果见表 6—表 8

6 不同模型在University of Pavia高光谱影像的分类精度

Tab. 6 Classification accuracy of different models onthe University of Pavia image

表选项

7 不同模型在University of Houston高光谱影像的分类精度

Tab. 7 Classification accuracy of different models on the University of Houston image

表选项

8 不同模型在Zhang-jia-gang高光谱影像的分类精度Tab. 8 Classification accuracy of different models on the Zhang-jia-gang image

表选项

University of Pavia影像的分类精度见表 4H-CapsNetOA和κ分别为99.37%0.991 7,比其他方法分别高0.16%~11.80%0.002 2~0.159 9。对于单类制图精度而言,H-CapsNet在草地和涂漆金属板制图精度分别达到99.99%100%。另外,SSUNS-CNNCapsNet-Base也表现出良好的性能。不同方法的分类图如图 5所示,H-CapsNet分类结果更为平滑,椒盐噪声大大减弱。

5 不同分类模型所获高光谱影像University of Pavia的分类

Fig. 5 Classification maps of hyperspectral image University of Pavia obtained by different classification models

图选项

University of Houston影像的分类精度见表 7H-CapsNet所获OA最高为96.02%,高于其他模型1.75%~15.58%。对于AA和κ,H-CapsNet网络比其他方法提高1.85%~15.58%0.018 9~0.168 7H-CapsNet网络共在8个类别取得最高精度,尤其是土壤、网球场和跑道,精度达到100%。所有模型分类图如图 6所示,原始影像北部存在阴影区,准确分类较为困难,可知,在小样本情况下H-CapsNet提供了清晰的分类结果,尤其是商业区的轮廓,这一性能的提升拓宽了后期的应用场景。受益于立体特征提取和多类型网络结合,3D-CNNSSUNCapsNet-Base也展现出了地物识别的优势,所获OA均在94%以上。

6 不同分类模型所获高光谱影像University of Houston的分类

Fig. 6 Classification of University of Houston obtained by different classification models

图选项

Zhang-jia-gang影像分类精度见表 8H-CapsNetOA94.28%,比其他方法高2.36%~7.67%,其AA和κ达到80.47%0.921 9,相较于其他方法分别提升5.81%~26.59%0.032 1~0.107 1。对于所有模型而言,林地、公园与绿地、交通运输用地3个类别的精度均相对较低,分析可能原因包括:①林地、公园与绿地两个类别容易混淆,且样本量少,类别的不平衡性给分类器带来了一定挑战,造成误分类现象;②交通运输用地在30 m/像素尺度上混合像元现象较为严重,给分类带来一定困难。所有方法的分类如图 7所示,H-CapsNet在水体、内陆滩涂等区域的分类结果更为准确。

7 不同分类模型所获高光谱影像Zhang-jia-gang的分类

Fig. 7 Classification maps of Zhang-jia-gang obtained by different classification models

图选项

此外,综合3个高光谱影像的总体分类精度来看,所提H-CapsNet模型10次运行分类结果的标准差偏小,总体OAAA和κ的标准差浮动范围分别为0.06%~0.78%0.26%~0.68%0.09%~0.84%,表现出了较好的稳健性。

3.3 重构损失对H-CapsNet的影响

为了探索损失函数中起正则化作用的重构损失对模型分类性能的影响,分析了权重因子δ在不同取值情境(10-52×10-55×10-510-42×10-45×10-410-32×10-35×10-3)下,所提H-CapsNet3个高光谱影像(D1University of PaviaD2University of HoustonD3Zhang-jia-gang)上的表现,相应的分类精度OA和κ×100如图 8所示。由图 8可知,δ值的变化对University of Pavia分类结果影响较小,而对University of HoustonZhang-jia-gang的影响较大,两者OA的变动幅度分别为5.61%1.32%,κ的变动幅度分别为6.18%1.85%。总体而言,当δ≤10-4时,H-CapsNet3个高光谱影像上的分类性能整体趋于稳定。因此,通常推荐δ值设置不高于10-4,对于不同分类任务及数据源而言,δ的取值应根据实际情况进行调整以使所提H-CapsNet分类性能最优。

8 不同权重因子δ对H-CapsNet分类性能影响评估

Fig. 8 Evaluation of the impact of different weight factors δ on the classification performance of H-CapsNet

图选项

3.4 图像块大小对H-CapsNet的影响

输入图像块大小(像素邻域)通常会对模型的分类性能造成影响,尤其是基于卷积输入的分类网络。H-CapsNet分类网络在输入端存在卷积层,因此有必要探索其对图像块大小的敏感性。对3景高光谱影像,训练和测试样本依照表 1—表 3分配,设置输入的图像块大小分别为9×911×1113×1315×1517×1719×1921×21像素,测试H-CapsNet分类网络的性能变化,并统计对应的OA和κ,结果如图 9所示。在3幅高光谱影像上的试验表明,H-CapsNet的分类精度并非随着图像块的增大而依次升高,而是呈现波动态势,对于University of PaviaUniversity of Houston而言,最佳的图像块大小是13×13像素,Zhang-jia-gang对应的最佳图像块大小是11×11像素。整体而言,在较小的图像块尺寸上,H-CapsNet网络的分类性能优势明显,间接说明其在有限的图像块大小上具备强有力的特征抓取能力。此外,在大的图像块尺寸上(如:21×21像素)H-CapsNet分类精度有一定程度下降,可能原因是,对于大的图像块场景,此时单个像素邻域较大,存在非同类地物、混合像元等的干扰,导致分类器对目标像素类别界定不清晰。

9 不同图像块大小下H-CapsNet网络在3幅高光谱影像上的分类精度

Fig. 9 Classification accuracy of H-CapsNet network on three hyperspectral images with different image patch sizes

图选项

3.5 H-CapsNet消融试验

所提H-CapsNet网络主要涉及空间注意力、通道注意力和胶囊网络基础架构3个部分,为探究不同部分对模型分类性能的贡献度,设计了H-CapsNet方案AD 4组消融试验,并汇总了其在3个高光谱影像上的分类精度指标OA和κ,具体结果见表 9。由分类精度的结果可知,通道注意力模块的贡献度略高于空间注意力,尽管H-CapsNet方案DUniversity of HoustonZhang-jia-gang影像上相对于方案A的分类精度较低,但仍表现出具有竞争力的分类效果,为H-CapsNet网络的基础分类性能提供了保证。从消融试验的总体结果来看,所提H-CapsNet方案A(H-CapsNet)仍是最优解决方案。

9 H-CapsNet在不同高光谱影像上的消融试验结果

Tab. 9 Ablation test results of H-CapsNet on different hyperspectral images

注:D1D2D3分别表示高光谱影像University of PaviaUniversity of HoustonZhang-jia-gang

表选项

 

3.6 H-CapsNet的特征表达能力

为了直观形象地表征H-CapsNet对地物目标特征的表达能力,以高光谱影像University of PaviaUniversity of Houston为例,对H-CapsNet分类网络中空间注意力模块产生的特征图进行展示,如图 10所示,包括地面假彩色影像和空间注意力特征图。由于影像整体的空间注意力特征图是通过拼接单个图像块(尺寸为11×11像素)的结果而来,因此视觉上存在“棋盘效应”。由图 10可知,影像中涉及的关键地物信息特征均被激活,使输入模型的影像特征数据权重不再全为1,而是根据模型对数据特征学习抽象的结果,有选择地对模型认为重要的部分赋予高权重(趋向于1),对相对次要的部分赋予低权重(趋向于0),从而使模型能够更有效地服务于地物精准分类。具体而言,图 10(a)和图 10(b)的黄框中标示了空间注意力特征值显著的部分区域,在这些示意区地物轮廓被完整激活,面源目标覆盖的区域特征值明显趋于1,此时有助于模型高效学习该类的特征。

10 H-CapsNet网络空间注意力特征

Fig. 10 H-CapsNet network spatial attention feature

图选项

3.7 模型运行效率

模型的复杂度通常与模型结构、网络类型、数据体量、训练批次大小等因素有关。深度学习网络在大规模分类应用时相对耗时,为了评估模型的复杂度,统计所获不同模型的训练时间和参数量见表 10。由于不同数据源大小和最优参数设置存在差异,因此模型对应不同数据集,其参数量存在细微差异。考虑到不同的深度学习模型在训练收敛过程中所用的训练轮次差别较大,因此以模型运行一个epoch所消耗的时间进行计算,单位为s,结果为10epoch运行的平均值。

10 不同深度学习模型的训练时间和参数量

Tab. 10 Training time and parameter size of different deep learning models

表选项

当训练数据体量较大时,耗时相对长的网络为S-CNN3D-CNN。例如,对于总训练样本数为32 554的高光谱影像Zhang-jia-gang,一个轮次内S-CNN3D-CNN网络的训练时间分别为989.18 s46.51 s,数倍于其他网络模型,原因是两个网络中均使用三维卷积作为内核明显增加了运算量和计算复杂性,导致耗时较长。相比而言,H-CapsNet等网络耗时相对较短,利于大规模应用。总体来看,H-CapsNet网络的参数量最大,但相比超大型的网络模型,参数量处于可以接受的范围,且随着多核计算、并行计算和云计算等技术的普及与落地,因模型参数体量所带来的负面效应将被大大削弱。

4 结论

面向高光谱影像高精度分类的需求,设计了一种联合空谱特征的高光谱胶囊网络H-CapsNet,通过对University of PaviaUniversity of HoustonZhang-jia-gang 3幅高光谱影像进行分类试验,将所提网络与多个模型进行试验比较。研究得出以下结论:注意力机制和胶囊网络的联合使用,使H-CapsNet能有效联合高光谱影像的空间和光谱特征,充分建模对象特征的实例化参数,具有更强的特征聚焦和表达能力。在3个不同分辨率的高光谱遥感影像上,H-CapsNet分类网络均取得了最优的分类效果。对于分类结果而言,H-CapsNet能够较好地抑制椒盐噪声,且对阴影区域地类也能很好识别并保持相对完整的轮廓。此外,H-CapsNet分类网络对像素邻域具有好的适应性,当图像块尺寸较小时,仍可取得相对理想的分类结果。向量化的胶囊神经元增强了H-CapsNet对特征的感知和表达能力,这也使得可学习参数体量较大,如何在不损失其性能的前提下进行轻量化改造值得探索。

作者简介

第一作者简介:杜培军(1975),男,教授,博士生导师,研究方向为城市遥感,遥感信息智能处理与地学分析。E-mailpeijun@nju.edu.cn

本文转载自微信公众号智绘科服

转自:“科研圈内人”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com