原名:Deep learning models for river classification at sub-meter resolutions from Multispectral and panchromatic commercial satellite imagery
译名:基于多光谱和全色商业卫星影像的亚米分辨率河流分类深度学习模型
期刊:RSE Remote Sensing of Environment (IF:13.85)
发表时间:2022.09
DOI:10.1016/j.rse.2022.113279
1.研究背景
地球表面水文遥感在评估季节性干旱、洪水的社会性影响,预估气候变化的大规模影响等环境问题中至关重要。目前,已有大量关于卫星影像水分类的方法,但这些方法使用的公共卫星影像空间分辨率通常大于10m,并且需要多个波段的光谱信息,限制了卫星影像水分类的效率和精度。为了解决这些问题,本研究基于30cm全色和1.2m多光谱商业卫星影像,开发了多个全卷积神经网络,网络不仅可以学习水体的光谱特性,还能学习水体的形态特征,甚至可以从全色图像中对水进行分类。本研究使用Quickbird-2、WorldView-1、WorldView-2、WorldView-3和GeoEye卫星影像,重点研究北极的河流,能够只依赖全色影像使用多光谱标签,完成FCN水分类模型的训练。尽管在特征空间较小的情况下,这些模型的精确度和召回率仍超过了85%,空间分辨率也高出1-2个数量级,这为环境水文学的广泛应用铺平了道路。
2.研究区域和数据集
本研究的数据来自GeoEye、QB2、WV1、WV2和WV3卫星影像,并在海冰极地赤平极坐标系(ESPG:3413)中进行了正射校正。所有多光谱影像都包含红色、绿色、蓝色(RGB)和近红外(NIR)波段,一半的多光谱图像有额外的4个波段,分别是海岸带(C,绿色)、黄色(Y)、另一个红色波段(RE)和另一个红外波段(N2),所有多光谱的分辨率都相同约为1.2m,全色波段的分辨率为30cm。这些卫星影像覆盖了阿拉斯加和加拿大的所有北极地区,时间覆盖2004年到2020年。多光谱影像的尺寸为12×12km2,全色影像为则为多光谱影像的16倍。
研究采用迭代的方法来构造标签影像。在第一次迭代中,从WV2、WV3和QB2中选择了125张几乎无云的多光谱图像,覆盖了阿拉斯加和加拿大的15个不同河段(位置如图1所示)。在第二次迭代中,目视选择1150个最佳掩模(位置如图1所示),用以获得高质量的标签图像。两次迭代产生的带标签影像80%用于训练,20%用于验证。为了对模型进行附加验证,在不同的地理位置手动标记注释了另外17幅全尺寸影像(位置如图1所示)。
图1 训练和验证数据的位置。圆形和星形分别表示模型训练的第一和第二次迭代中使用的125和1150张全尺寸影像。方块为用于附加验证的独立全尺寸影像。
3.研究方法
(1)水体标签标记方法
1.应用大气顶面(TOA)校正,以校正不同卫星方位下光线穿过大气层的不同路径长度,并记录在图像元数据中。
2.规范化数据,以说明数字中的不同范围。
3.使用(改进后的)NDWI阈值将像素分为可能的陆地和可能的水域。对于8波段WV图像,沿海(C)和远红外(N2)波段提供了陆地与水的对比信息。手动调整确定三个阈值TH1、TH2、TH3。NDWI的像素标记为0(陆地),th1标记为70(也许是水),th2标记为主255(绝对是水)。阈值是通过目视检查覆盖在相关真彩色图像上的标签来确定,最终确定为TH1=0.3、TH2=0.5和TH3=0.7。
4.即使是最佳的NDWI阈值分类,仍然会有很多的误分类像素。为了消除主河道的噪声,进行了最大连接分量分析(LCCA)。在执行LCCA之前,为了确保所有河流像素都已连接,分两步创建一个单独的二进制掩码:(1)使用SWORD数据库中的先验河流中心线,并将其覆盖在NDWI掩码上。(2)将高斯模糊核应用于NDWI分类,以定义比实际河流体稍宽的区域(并扩大其他标记错误的像素簇)。通过将非0值设置为1,将此辅助掩码设置为二进制(NDWI掩码本身在此步骤中不会更改)。
5.将LCCA应用于二进制辅助掩码,并且只保留最大的组份。这就消除了所有被错误标记为水的不连续像素簇,例如湖泊、建筑物和云。然后,我们将这个辅助掩码与NDWI掩码相乘。NDWI阈值标记为陆地的所有像素保持不变,而NDWI标记为水的所有像素中不是最大分量的一部分将乘以零,将重新标记为非河流。
6.通过结合侵蚀和膨胀来进行图像去噪,以消除河体内个别标记错误的像素。
7.有些如云、阴影或附近道路无法自动与河流分离的特征,需要手动移除。
图2d显示了育空地区最终标签的示例。
图2 制作覆盖育空地区单个WV3图像的水体训练标签。基于手动调整的NDWI阈值(a–c)和后处理步骤进行制作,并获得最终训练标签(d)。
(2)全色图像的训练数据生成
相比于从信息丰富的多光谱数据,从单波段全色图像对水进行分类更为困难,即使是构建训练数据也具有挑战性。我们提出了一种新的方法,用于为全色影像水分类模型生成训练数据。每个多光谱影像都有一个对应的全色影像(反之亦然),因此我们将全色影像向下采样到多光谱分辨率。具体来说:对于多光谱训练数据集中的每个标记影像,我们找到对应的全色影像,按照多光谱分辨率进行双线性下采样,将从多光谱影像中提取的标签与全色影像匹配,并像以前一样将其分片成相同大小的切片。
(3)深度学习模型
全卷积神经网络在精确且计算效率高的图像分割任务中非常强大。本研究将ResNet-18和ResNet-34作为主干,将U-Net与ResNet主干的组合称为U18和U34。与U-Net一样,LinkNet架构可以使用不同的主干,我们使用LinkNet架构再次组合了ResNet-18和ResNet-34,统称为L18和L34。DeepWaterMap2(DWM)是一种专门用于从多光谱卫星影像中对水进行分类的分割模型,DWM也被应用于我们的卫星影像水分类任务中。
本研究修改了上述五个模型(U18、U34、L18、L34和DWM),以适应多光谱和全色卫星影像的水分类任务。这意味着模型具有一个适用任何图像大小的输入层,以适应全尺寸卫星影像。并且模型应当允许任意数量的光谱波段输入,而不仅仅是典型的三个RGB通道。我们使用一种小批量梯度下降法对每个模型进行训练,该方法每批次包含24张图像,并对学习速率进行自适应动量优化,以最小化标准熵损失函数。所有模型都设置为100个时间段的训练,在单个NVIDIARTX3090或A40GPU上只需要几个小时的计算。
4.研究结果
(1)多光谱影像模型的训练结果
表1总结了针对4波段多光谱影像开发的所有模型的精度、召回率和F1精度指标以及GPU训练时间。表1只显示了训练数据为第二次迭代的结果,即1150个全尺寸标记图像集的结果。所有FCN模型在精度指标以及计算成本方面都表现出优异的性能。LinkNet比U-Net训练时间快,L34的训练时间与DWM相近。使用训练过的模型对不同地理位置的17张全尺寸附加验证影像进行分类时,发现F1精度指标如图3所示。17张
中的F1平均得分高于94%,甚至高于训练和验证数据。最有可能的原因是,该测试集中的图像和标签的质量比用于训练的1150幅全尺寸影像的平均质量好。
表1 适用于14000幅4波段(RGB-NIR)多光谱图像五种不同FCN的训练结果汇总。
图3 17幅独立全尺寸图像的所有5个多光谱模型的F1分类精度的小提琴图。F1柱状图以彩色显示,短虚线表示上下四分位,长虚线表示中间值。
(2)全色影像模型的训练结果
表2总结了全色模型的精度和计算成本。所有模型的训练时间与多光谱影像的训练时间相似,LinkNet在速度上仍优于U-Net,DWM与L34的效率相匹配。所有FCN在全色影像的准确性方面比多光谱影像都要都稍差一些。DWM全色单波段模型是最浅的模型,得到的指标精度最差。
当我们使用经过训练的全色模型对17张全尺寸影像进行水分类时,在图4中看到,直方图中的方差比多光谱图像的方差大,平均F1分数受到了一些较差的标签影响。所有模型的F1得分中位数为80%。L18和U18(最佳全色模型)的F1中位数得分为85%。与多光谱影像相比,全色影像的可用性要高得多,因此,只需丢弃较差的分类结果,仍可以从全色影像中获得高精度的河流掩模结果。
表2 14000幅单波段全色图像FCN训练结果汇总
图4 17幅独立全尺寸图像的所有5个全色模型F1分类精度的小提琴图。F1柱状图以彩色显示,短虚线表示上下四分位,长虚线表示中间值。
(3)不同分辨率卫星影像下的水体分类结果
图5总结了由三颗不同卫星以不同分辨率观测到的位于阿拉斯加州纳纳纳的塔纳纳河一部分的DWM分类结果。Landsat−8和Sentinel-2影像使用原始的6波段DWM模型和公开的训练权重进行水分类,并清楚地检测到了河体、水井(高召回率),但也显示了大部分背景的非水概率,这将在后期处理中被去除。我们的4波段DWM模型应用于自然分辨率多光谱WV3影像,在质量上显示出极好的精确度和召回率。当我们将该模型应用于分辨率为40cm的锐化多光谱影像时,该模型表现同样好,可以清楚地分辨更小的水景。
对于全色影像,我们采用了改进的U18,它仅在单个频带上提供了极好的召回率,但在1.5米和40厘米分辨率下具有较低的精度(更多噪声)。图6显示了如何通过后处理步骤消除这种噪声,实现几乎与信息丰富的多光谱数据一样好的预测。最后,我们放大其中一个较小的支流,通过对(平移锐化的)多光谱和全色影像的推断,可以分辨出只有几米宽的支流和岛屿(图5g–h)。
图5 阿拉斯加州纳纳纳的塔纳纳河陆地卫星分类结果对比。Landsat-8分辨率为30米(a),Sentinel-2分辨率为10米(b),WV3多光谱(c)和全色(d)分辨率为1.5米,锐化后光谱(e)和自然全色(f)分辨率为40厘米。放大后的面板显示了5m宽的河流辫子和岛屿(g,h)。
图6 图5e在1.5m(a)和40cm(b)分辨率下,通过最大连接元件运算符进行后处理后的全色(二进制)分类结果。
(4)模型参数量和性能比较
表3总结了所有FCN分类模型相关的定量性能指标。具体来说,表3提供了每个模型的可训练参数数量,以及在512×512图像上进行推断所需的浮点运算(FLOPs)数量。这两种度量都是由每个模型中卷积层的数量和类型决定的。由于这些架构在多光谱和全色版本上基本相同,因此多光谱模型(如表3所示)和全色模型(未显示)的可训练参数和FLOP的数量几乎相同。表3还列出了大型WV3影像分类的CPU时间和内存要求。为了进行最直接的比较,显示了在一个2.7GHz内核上执行单线程的CPU时间。
表3 可训练参数的数量、512×512图像的浮点运算(FLOPs),以及处理13690×11084=152×106像素的WV3图像在单个CPU线程上的推断CPU时间和内存使用量(最大驻留集大小,RSS)。后两列首先显示多光谱分类,然后显示全色分类。
(5)不同FCN模型影像分类结果比较。
图7和图8进一步说明了不同FCN模型在全尺寸多光谱和全色影像分类方面的性能。图7是塔纳纳河流经阿拉斯加费尔班克斯时的一个具有挑战性的场景,那里的河流呈现出复杂的辫状结构,干湿沙洲以及道路和建筑物很容易被其他方法误分类为水。图8提供了阿拉斯加的尼克河和育空河以及加拿大的佩利河的三个示例。
图7 塔纳纳河流经阿拉斯加州费尔班克斯的7850×11855的WV2影像(a)。结果显示了DWM(b)、U18(c)、L18(d)以及NDWI阈值为0.27的多光谱图像(e),以及经过后处理(f)和不经过后处理(g)的全色对应影像的L18。最后一个面板(h)显示了所有FCN的堆叠,每个FCN都有不同的配色方案,由于几乎完美的重叠,只有一个清晰可见。
在比较10个FCN的性能时,LinkNet和U-Net与ResNet-18和ResNet-34主干网都给出了几乎相同的分类结果,因此只显示了效率更高的ResNet-18版本的结果。事实上,所有多光谱模型的分类结果几乎无法区分。在图7的最后一个面板中,所有FCN预测都堆叠在一起,每个预测都使用不同的颜色方案。除了DWM误分类为水的一些建筑物外,DWM、U18、U34、L18和L34之间的河流本身分类没有明显差异。图8中的其他三个示例也是如此。
图8 使用(多光谱)DWM、U18和L18进行水分类结果。(a–d)为阿拉斯加帕尔默附近的尼克号(Knik)(11237×14795,WV3,2018年6月3日)。(e–h)为阿拉斯加圣玛丽附近的育空地区(12662×15916,WV3,2016年8月30日)。(i–l)为位于加拿大法罗的佩利河(8879×8952,WV2,2017年8月3日)。
5.研究结论
本研究通过利用亚米级分辨率的卫星影像,结合先进的全卷积神经网络,实现了利用多光谱数据和全色数据对水进行分类提取。根据过去5年文献中最成功的架构,建立评估了10个FCN的性能(5个用于多光谱图像,5个用于全色图像)。为了训练模型,使用了NDWI阈值、手动和OpenCV图像后处理步骤等过程,生成了14000个标记的多光谱训练图块。所有FCN算法在多光谱标记的验证数据上实现了大于90%的精度、召回率和F1指标,基于U-Net和LinkNet的FCN模型在全色数据上的精度均高于85%。以前所未有的精度和分辨率实时跟踪河流形态的变化。这为遥感和地表水文研究提供了基础,从而推动了地表水文过程遥感的最新发展。
6. 文章引用格式:
MOORTGAT J, LI Z, DURAND M, et al. Deep learning models for river classification at sub-meter resolutions from multispectral and panchromatic commercial satellite imagery [J]. Remote Sensing of Environment, 2022, 282: 113279.
转自:“科研圈内人”微信公众号
如有侵权,请联系本站删除!