以下文章来源于深圳大学可视计算研究中心 ,作者谢志丹
导读
本文是VCC谢志丹同学对论文 NeRFusion: Fusing Radiance Fields for Large-Scale Scene Reconstruction 的解读,该工作来自加州大学圣地亚哥分校和Adobe研究所,并已发表在计算机视觉和模式识别领域顶级会议CVPR 2022上。
项目主页:
https://jetd1.github.io/NeRFusion-Web/
该工作提出了一种新的方法来快速重建大规模场景的体素辐射场,该方法使用一种新的跨场景的可泛化和训练的递归网络来从顺序输入图像序列重建大型室内场景辐射场。
注:本文
与视频均来自原论文与其项目主页。
I
引言
在计算机视觉和图形学中的各种应用中,从RGB图像重建和渲染大规模室内场景是具有挑战性的和至关重要的。先前的方法,如基于TSDF[2]融合技术并使用深度传感器来实现有效重建,但其不能合成逼真的图像。最近的方法,NeRF提出从RGB图像中优化场景辐射场,用全局MLP表示,以实现照片级真实感的新视点合成。然而,NeRF由于其有限的MLP网络容量和很慢的逐场景优化速度,不能很好地处理大规模场景。
本次导读论文为实现快速、大规模的场景级辐射场重建,使神经场的重建和渲染更加实用,提出了一种新的神经框架,该框架使用递归神经网络从长RGB图像序列中创造性地重建大的稀疏辐射场。其首先为图像序列关键帧重建局部辐射场。在此期间,先利用相邻关键帧的2D图像特征来构建cost-volume(可以理解为表示局部辐射场的稀疏神经体素),然后利用深度MVS技术在cost-volume上应用稀疏3D卷积来得到局部辐射场,此局部辐射场还可单独用于渲染局部真实图像。然后,通过融合模块递归地将新估计的局部场作为输入,并学习合并局部体素,来逐步重建整个场景的全局辐射场。
在ScanNet、DTU和Google Scanned Object数据集上对该框架进行端到端的训练后。在大规模室内场景重建中,其取得了非常出色的效果,具体如图1。如果对每个场景进行一个小时的微调,其重建的质量可以达到最先进的水平。并能从任意数量的输入图像重建具有任意场景比例的辐射场。
图1 NeRFusion在ScanNet数据集上重建效果展示
II
技术贡献
本工作主要贡献如下:
提出一种新颖的递归神经网络对局部辐射场进行融合;
将场景建模为神经体积辐射场,重建逼真的场景外观;
网络框架在训练后可以推广到任意尺度的新场景,并能够进行高效的大规模场景重建和渲染。
NeRFusion在大规模室内和小规模物体场景上都达到了最先进的效果,具体如下表1所示:
表1 从上至下依次为NeRFusion与先前的神经网络框架在有无逐场景优化情况下,在ScanNet、NeRF Synthetic、DTU 三个数据集上在PSNR、SSIM、LPIPS三个指标上的对比。
III
方法介绍
本论文在给定一系列图像 情况下,首先提取它们的图像特征 。然后,对每一帧重建局部神经体素 。再者,利用递归神经网络对帧间局部神经体素进行融合,进而构建全局特征体素 。最后,从全局特征体素中回归体积密度σ和辐射度c来渲染具有可微光线行进的图像,具体网络框架如下图2所示。
图2 NeRFusion网络结构图
具体来说,本论文首先使用深度2D卷积神经网络将输入图像 映射到2D特征图 ,对来自每个视图的场景内容进行编码。然后,将世界坐标系中所有 个相邻视点的特征图投影到关键帧视点,其中对于不是所有数量的相邻视图都是可见的体素进行遮罩。对于每个相邻视点i及其投影过来的特征
,
构建一个3D特征体 ,其表示为:
其中, 是以���为中心的体素处的特征, 是中心在视图���中的2���投影,[·,·]表示特征拼接, 为每个视点在���处对应观察方向,���为相应��������� 网络用来计算附加特征。
对于 个相邻视点生成的 ,再聚集其特征来回归关键帧t处的局部辐射场表达体
其中, 表示在第t帧处的所有 个相邻视点,Mean和Var分别表示逐个元素平均和方差运算。
在得到多个关键帧局部特征体积 后,将局部稀疏体重建 和来自前一帧的全局重建 视为递归输入,并使用带有3D CNN的GRUs融合模块对其进行融合产生全局特征体积 ,其表示为:
其中*是基于元素的乘法, 和 是更新门和复位门, 和 都是具有稀疏3D卷积层的深层神经网络。与在标准GRU中一样, 和 使用Sigmoid函数激活,而 使用tanh函数激活,允许整个模型针对每个输入帧顺序地更新全局重建 ,过程具体如下图3:
图3 GRU融合步骤的2D展示
在上述整个过程中,为了最大限度地提高内存和渲染效率,本论文去除了不被任何局部场景可见的体素来重建
最后,利用全局特征体积 和给定的观察方向d并结合给定3D位置 来回归出该位置的体素密度
和辐射度c,并经过体素渲染来得到观察方向的逼真的2D图像 ,其表示为:
其中 表示在 处进行三线性插值得到的特征,R、P分别表示NeRF中所用到的的MLP网络结构和体素渲染方程。
IV
部分结果展示
下图4展示了本论文方法和NeRF和IBRNet网络架构分别在三个数据集ScanNet、NeRF Synthetic、DTU上的可视化结果。
结果在视觉上比IBRNet的直接推理和逐个场景微调的结果要好得多。由于IBRNet执行基于图像的渲染,并且由于有限的GPU内存,它只能聚合一小部分本地相邻视图,因此会生成撕裂伪像。而本论文中递归模块,能够高效地聚合所有输入视图的透视信息,从而以更好的跨视图一致性显著提高渲染质量。与NeRF长时间、逐场景优化的渲染结果比,本文方法实现了高效率、高精度的大尺度辐射场重建。
图4 NeRFusion在场景重建质量和速度上都有较大提高
接下来图5展示的是NeRFusion方法在不同时间微调后的视觉质量。可见,直接推理结果比NeRF更好,来自微调的结果包含明显更多的细节,每幅图像的右上角显示的是其对应PSNR值。
图5 NeRFusion不同时间微调的效果
最后图6展示的是对不同数量的相邻视图进行采样以构建特征体积时的比较。可以看出NeRFusion学习的全局特征融合模块能够有效地融合不同视角的信息。当使用更多的输入视图时,我们的方法可以在渲染的图像中生成更清晰的细节。
图6 NeRFusion使用不同视角数目的效果
V
总结与展望
本论文工作中,提出了一种新的神经方法,可以实现快速、大规模和高质量的场景重建。与传统的基于TSDF的重建不同,NeRFusion将场景重建为体积辐射场,从而获得照片级真实感的视图合成结果。该方法利用一种新的递归神经网络对输入图像序列进行处理,并通过重建和融合每帧局部辐射场来增量地重建全局大尺度辐射场。实验结果证明,NeRFusion可以达到ScanNet大规模室内场景数据集的最先进的渲染质量,同时所需的重建时间大大减少。
VI
思考与讨论
Q: 在给定训练数据集下,NeRF的MLP网络依赖视角来拟合相对准确场景可能其对场景几何预测不准确。NeRFusion网络为什么可以预测一个准确而复杂的场景几何?
A: NeRFusion网络输入了多个视角的关键帧,使用更加鲁棒性的特征融合方式来综合多视角的特征信息,并采用递归方式来逐步生成全局场景,生成场景大部分都综合了多个可见视角特征。同时,在已经取得巨大成功的NeRF的MLP网络中加入特征 来更准确细节的恢复场景复杂几何。
Q: NeRFusion需要使用一系列视角关键帧,并要根据其局部体素来递归重建全局体素,最后还需要逐像素渲染来得到最后的整个场景。过程复杂、时间冗长,NeRFusion怎么来实现高质量实时渲染?
A: 在整个过程中,特征提取模块使用共享参数。其次,在构建局部体素时去除了不被任何局部场景可见的体素,这极大的降低了内存消耗提高了速度。最后,通过短时间微调来更好的重建几何细节。确保了NeRFusion实现高质量实时渲染。
以下是开放性问题,欢迎读者朋友留言讨论:
Q: NeRFusion在处理具有远处背景的前景对象的场景、大型室外场景、少量视角的极端相机姿势场景的效果不够好。针对上述情况,我们应该从那些角度出发来克服这些问题?
转自:“arXiv每日学术速递”微信公众号
如有侵权,请联系本站删除!