课题组研究成果FreeReg: Image-to-Point Cloud Registration Leveraging Pretrained Diffusion Models and Monocular Depth Estimators被深度学习领域顶会The International Conference on Learning Representations (ICLR)接收。该研究成果第一作者为课题组博士研究生王海平,香港大学刘缘博士为共同一作,通讯作者为董震教授和杨必胜教授。
图1 (左)方法概述: FreeReg 首先利用预训练大模型统一图像和点云的模态,进而实现了单模态匹配以建立跨模态同名对应。
(右)FreeReg 不需要任何点云-图像配准训练,既能实现室内、室外场景下重叠小、视点变化大、点密度稀疏等困难情况。
给定部分重叠的图像和点云,FreeReg能够估计可靠的像素-三维点同名关系并解算图像-点云相对位姿关系。区别于现有方法利用对比学习的方式直接构建跨模态(图像和点云)一致特征,FreeReg提出首先进行基于预训练大模型的模态对齐,随后进行同模态同名估计。
FreeReg整体流程包括(1)利用Diffusion大模型实现点云到图像模态的统一并构建跨模态数据的粗粒度鲁棒语义特征;(2)利用单目深度估计大模型实现图像到点云模态的统一并刻画跨模态数据的细粒度显著几何特征;(3)FreeReg通过融合两种特征,无需任何针对图像-点云配准任务的训练,实现室内外图像-点云配准SoTA表现。
1. 利用Diffusion大模型将点云对齐至图像模态(FreeReg-D)
图2 图像、点云Diffusion特征构建与图像、点云特征一致性
我们提出利用Stable Diffusion及ControlNet构建图像、点云(深度图)的细粒度语义级特征,算法框架如图2。
RGB image diffusion feature:预训练图像生成大模型Stable Diffusion (SD)能够通过迭代T步去噪的方式从纯噪声生成一张符合某种text-prompt(包含语义名词)的图像,证明它能认识、区分和表征这些语义。因此,我们通过给图像添加噪声,输入到SD处理,探究其中间层表示中是否具有语义行。我们发现其中间层特征中0-6层具有显著的语义性(跨模态一致性),而7-12深层解码层特征为纹理相关特征。
Depth diffusion feature:对于点云,我们用预训练的ControlNet处理来自点云投影的深度图,并基于其引导SD的图像生成(迭代去噪)过程,使生成的图像符合深度图。随后我们提取深度图引导下SD的中间层特征,发现0-6层即符合深度图分布,同时与RGB的Diffusion深层特征具有一致的语义性。
因此我们利用RGB图像和深度图的0-6层语义性Diffusion特征构建语义特征用于匹配,如图2c所示。
2. 利用单目深度顾及大模型将图像对齐至点云模态(FreeReg-G)
在这一部分,我们利预训练的单目深度估计网络Zoe-Depth去恢复input RGB的深度,并将其恢复到3D点云分布,然后对RGB恢复的点云和输入点云分别提取FCGF几何特征用于匹配,记为几何特征。此外,由于匹配得到的同名关系存在于点云空间,我们可以采用Kabsch算法而非PnP方法进行变换估计,Kabsch利用Zoe-depth预测深度的约束可以仅使用3对同名关系就实现变换解算,更高效、更可靠。
3. FreeReg = FreeReg-D + FreeReg-G
最终,通过加权连接上述语义、几何特征,实现兼具语义和几何特性的FreeReg特征,实现图像、点云跨模态数据的细粒度匹配。得益于大模型模态对齐,FreeReg-D/G在没有任何训练和微调的情况下,就在室内外三个数据集上取得了SoTA表现,而FreeReg进一步提升算法表现,取得了平均20%的内点比例提升和48.6%的配准成功率提升!定量和定性效果如图3和4。成果已经开源至课题组主页https://github.com/WHU-USI3DV/FreeReg。
图3 图像、点云Diffusion特征构建
与图像、点云特征一致性
图4 多类型数据集定性配准结果
Abstract:Matching cross-modality features between images and point clouds is a fundamental problem for image-to-point cloud registration. However, due to the modality difference between images and points, it is difficult to learn robust and discriminative cross-modality features by existing metric learning methods for feature matching. Instead of applying metric learning on cross-modality data, we propose to unify the modality between images and point clouds by pretrained large-scale models first, and then establish robust correspondence within the same modality. We show that the intermediate features, called diffusion features, extracted by depth-to-image diffusion models are semantically consistent between images and point clouds, which enables the building of coarse but robust cross-modality correspondences. We further extract geometric features on depth maps produced by the monocular depth estimator. By matching such geometric features, we significantly improve the accuracy of the coarse correspondences produced by diffusion features. Extensive experiments demonstrate that without any task-specific training, direct utilization of both features produces accurate image-to-point cloud registration. On three public indoor and outdoor benchmarks, the proposed method averagely achieves a 20.6 percent improvement in Inlier Ratio, a three-fold higher Inlier Number, and a 48.6 percent improvement in Registration Recall than existing state-of-the-arts.
[1] 论文预览版链接:
https://arxiv.org/abs/2310.03420
[2] 代码链接 :
https://github.com/WHU-USI3DV/FreeReg
转自:“生态遥感前沿”微信公众号
如有侵权,请联系本站删除!