ISPRS丨迁移学习在点云语义分割中的应用

2024/1/25 17:26:11　阅读：80　发布者：

三维点云的深度学习的语义分割任务常常受限于点云数据，这是因为注释点云数据非常耗时而且容易出错，导致点云数据没有那么多的标记数据可用。和图像训练不同，由于图像训练有着较多的公共数据集，因此可以使用这些数据进行预训练，然后微调以适应不同的任务。为了解决三维点云深度学习训练数据较少的问题，本研究提出了一种利用多视角图像和三维点云几何信息完成三维点云的语义分割系统，该方法以在二维图像上的标签迁移学习为主导，辅以少量的有噪声的三维点云标签完成了三维点云的语义分割任务。并且，在一个移动地图数据集中证明了该方法进行迁移学习的有效性，也同样证明了耦合2D和3D信息对于语义分割的有效性。

图1 语义分割网络架构

该方法的网络框架可以分为两部分，第一部分是针对于图像的2D特征提取网络（MVNet）。这部分网络又可以被分为两部分，不同于传统深度学习直接使用简单加权投票的图像类别信息，该第一部分使用的是三维点云中每个点对应图像的像素类别概率，结合对应的图像深度特征进行耦合，对点学习单个像素所携带的特征信息；第二部分通过设定邻域大小，对点学习图像中的邻域及上下文信息。后续，通过多个MLP将这些特征进行耦合作为MVNet的输出。

图2 MVNet架构

第二部分则是针对于三维点云本身的特征进行学习，这里采用了UNet的网络架构构建了SNet对三维点云本身的几何特征进行学习。这里，结合LiDAR本身线阵扫描的特性，该研究将三维点云由原有的N*3的结构更改为了m*n的矩阵，其中行代表线阵扫描的角度数目，每一列代表单次线阵扫描中的点位，这样的处理有助于结合LiDAR本身的扫描信息以进行学习。

值得一提的是，SNet的训练还需要大量的三维点云标签进行预训练，这里使用了线阵扫描中的噪声标签先进行了预训练，后续利用小范围精确数据进行了微调以输出较优结果。之后通过将两部分的特征使用MLP进行耦合，并对特征进行学习，即可完成对三维点云的语义分割任务。

图3 SNet架构

该方法所采用的数据集一共标注了88M个三维点云和13张图像作为训练和验证数据集。其中76%用于训练，26%用于验证。和简单的图像标签转移结果相比，该方法的精度最高可达71%，远超简单的图像标签转移结果（48.1%）。同时，消融实验证明了结合点云距离信息，图像深度信息，类别直方图信息能够极大提高该方法的精度。另外，不使用图像邻域信息的网络总体表现比使用邻域信息更好。

图4 和其他模型对比结果

图5 考虑邻域信息的模型结果

但该方法仍存在一些改进空间，一方面，该方法对远点的分类结果较差，这本身就和图像视角的遮挡有关，由于相机拍摄角度问题，会存在映射的重合问题；另一方面，该方法还没有考虑空间平滑性，仅仅依赖于物体本身状态来完成分割，进一步考虑空间平滑二点表达有助于改进该网络。但总的来讲，该方法提供了一种结合2D信息和3D信息进行三维点云语义分割的新方法，可以实现高精度的点云语义分割。

参考文献：

Peters, T., Brenner, C., & Schindler, K. (2023). Semantic segmentation of mobile mapping point clouds via multi-view label transfer. ISPRS Journal of Photogrammetry and Remote Sensing, 202, 30-39.

转自：“生态遥感前沿”微信公众号

如有侵权，请联系本站删除！

上一篇： 实用总结 | 多元回归残差分析应用及模型评价
下一篇： ERL | 南信大发文指出植被绿化难以抵御因气候变暖导致的骤旱的影响

投稿问答最小化 关闭

ISPRS丨迁移学习在点云语义分割中的应用

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

ISPRS丨迁移学习在点云语义分割中的应用

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭