投稿问答最小化  关闭

万维书刊APP下载

论文一起读 | 高分辨率三维感知人像生成的交互式解耦编辑

2023/7/28 9:08:32  阅读:79 发布者:

ent--><

以下文章来源于深圳大学可视计算研究中心 ,作者胡佳平

导读

本文是VCC胡佳平同学对论文 IDE-3D: Interactive Disentangled Editing for High-Resolution 3D-aware Portrait Synthesis 的解读,该工作来自清华大学与腾讯AI实验室并已发表在计算机图形学顶级会议SIGGRAPH Asia 2022上。

项目主页:

https://mrtornado24.github.io/IDE-3D/

该工作提出了一种兼顾生成质量与可编辑性的三维感知人脸生成方法,它能够生成多视角一致的高分辨率人脸图像以及对应的语义图,通过对语义图的交互编辑,用户能够灵活地调整生成人脸视角以及人脸组件。

I 引言

现有基于StyleGAN的方法通过对各种先验条件进行调整来学习更具解耦性和可控性的潜在空间来实现编辑能力。这些方法在合成2D图像方面是有效的,但是如果直接应用于编辑3D人脸,则会出现视角不一致的问题。利用隐式神经表示构建3D感知的生成对抗网络近年来较为热门。早期基于NeRF的生成器采用体渲染来生成视角一致的肖像,但这种方法存在内存消耗大且只能合成分辨率和保真度有限的图像的问题。为了缓解这个问题,一些方法提出了使用基于CNN的上采样器。FENeRF[1]尝试通过GAN-inversion在生成的NeRF表示中实现局部人脸编辑,然而生成表现不尽人意。此外,基于优化的GAN反演非常耗时,因此不适合实时交互式编辑任务。

本次导读论文介绍了一个高分辨率的3D感知人脸生成模型,该方法不仅能够控制面部形状与纹理,还支持实时的交互式编辑。IDE-3D的框架包括一个多头StyleGAN2[2]特征生成器、一个神经体渲染模块和一个基于2D CNN的上采样模块。为了解耦不同的面部属性,将形状和纹理代码分别注入到基于StyleGAN的特征生成器的浅层和深层。然后,使用上一步得到的特征构建空间对齐的形状和纹理的高效三平面表示的NeRF。通过该NeRF,可以由体渲染和基于2D CNN的上采样器渲染其他视角的人脸,这样的生成结果具有较好的视角一致性和身份保持。

此外,为了实现面部组件编辑,有必要将输入图像和语义掩码映射到潜在空间,并通过GAN反演技术编辑编码后的面部。一种可行的解决方案是使用基于优化的GAN反演,但存在两个明显的缺点。一方面,很难获得能够产生最佳潜在编码的初始化。另一方面,优化通常对于交互式编辑来说太耗时。因此,本次导读论文采用了一种混合的GAN反演方法。给定输入的面部图像和对应的语义掩码,使用纹理和语义编码器获取相应的潜在编码,并将其用作基于优化的中枢调整(Pivotal Tuning[3]的初始化,以获得高保真度的重建。

II 技术贡献

本工作主要贡献如下:

提出了一个高分辨率的语义感知的3D生成器,可以对局部形状和纹理进行解耦控制;

提出了一种混合的GAN反演方法,可以将人脸图像和语义掩码准确地映射到特征空间中;

提出了一个交互式人脸编辑系统,能够在自由视角的肖像上进行实时编辑,并获得高质量的结果。

III 方法介绍

IDE-3D网络由三维感知人脸生成器以及人脸图像编码器两部分组成。

生成器的目的是合成具有灵活编辑能力的高清人像图像。与现有的三维感知生成方法类似,IDE-3D包括一个基于StyleGAN的多头生成器以及体渲染模块,多头生成器用于产生语义解耦的三维表达,便于实现对人脸各组件的编辑。体渲染模块则通过场景的NeRF渲染得到低分辨率的人脸图像与对应的语义掩码,再上采样到更高的分辨率。更具体而言,如图1(上)所示,StyleGAN特征生成器  以三平面表示构建语义和纹理的空间对齐的3D表达。为了解耦不同的面部属性,形状和纹理编码分别注入到  的浅层和深层。此外,更深层被设计为与每个特征平面对应的三个并行分支,以减少它们之间的纠缠。给定生成的NeRF,再通过体渲染和基于2D图像生成的上采样网络,得到最终的RGB图像及语义掩码。

1 IDE整体网络结构图

为了交互式编辑人脸图像,IDE-3D设计了混合学习与优化的GAN反演策略来实现输入人脸图像与三维感知生成器的对齐。在这个问题中,需要同时保证生成人脸的质量、与输入人脸的一致性以及生成效率。如图1(下)所示,IDE-3D采用两个编码器将输入图像和语义分别映射到潜在空间  和  。在训练过程中,除了使用特定数据集中的真实数据,还利用预训练的生成器进行数据增强。为了约束多视角的人脸身份,论文提出了多视角增强策略:对于合成的人脸图像,从另外���个随机视角进行渲染,并通过一致性约束一同训练。一方面,由于它们是由相同的潜在编码合成的,它们的反演的潜在编码应该是相同的。另一方面,通过在重建图像上添加特征一致性损失约束生成图像的身份。由于多视角增强有助于更好地分离内容和姿态,并提高了学习型反转在不同视角下的稳定性。在进行真实人像编辑时,将反转后的潜在代码作为中枢调整(Pivotal Tuning[3]的初始化,以更准确地重建输入图像。

IV 部分结果展示

2展示了与Baseline方法的定性比较结果。FENeRF生成了视图一致的图像,但渲染分辨率和图像质量有限。StyleNeRFStyleSDF都具有较高的图像合成质量,而StyleSDF在训练过程中通过使用隐式SDF表示和几何约束学习到了高质量的形状,但未能捕捉形状的细节。我们的方法在图像合成中不仅实现了更高的逼真度,还实现了更高的几何保真度。

2 相较于现有方法,IDE-3D具有更高的图像生成质量与更丰富的几何细节

论文使用Frechet Inception Distance (FID)Kernel Inception Distance (KID)对图像合成的逼真度和多样性进行了定量评估。此外,论文利用多视角人脸身份一致性 (ID) 来评估视图一致性。该指标计算了从两个随机相机姿态渲染的同一合成人脸对之间的Arcface余弦相似度得分的均值。表1展示了在FFHQCelebAHQ-Mask数据集上与Baseline方法进行的定量指标比较结果。论文方法在所有数据集上展现出了最优的图像合成质量和视图一致性。

1 相比其他方法,IDE-3D的生成质量、人脸身份保持更优

3展示了IDE-3D编辑人脸的能力,通过修改语义图,在其中修改诸如发型、眼睛、帽子、嘴唇等人脸组件,该方法都能够准确地将用户修改应用到生成人脸上。具有较好的可编辑性的同时,与先前的三维感知人脸生成方法相比,该方法兼顾了生成质量、人脸身份保持以及计算效率。

3 IDE-3D能够准确地通过语义图修改人脸组件

V 总结与展望

IDE-3D的方法包括一个3D-语义感知生成器、一个混合的GAN反转方法和一个交互式人脸编辑器,该方法能够在实时中灵活地支持许多面部编辑任务,同时不牺牲人脸身份保持和生成质量。但由于在生成过程中添加了视角约束,在某些情况下,三维感知生成器为了拟合输入图像,可能产生不合理的面部几何形状。为此,未来的工作中需要研究自然环境下多视角人脸图像的反演,同时更多保留生成几何形状的质量。

VI 思考与讨论

Q: 在利用编码器对三维感知人脸进行编辑时,为什么论文特别设计在正视角下进行?

A: 当渲染视角远离正视角时,在人脸的边缘区域会不可避免地出现一些不自然的瑕疵,因此在这种情况下编码器的重建质量会下降。为了避免视角影响人脸生成质量,对于侧面视角的人脸图像输入,IDE-3D首先将其摆正,再进行后续的编辑操作。

Q: 如何将论文中的三维感知人脸生成器迁移到风格域?

A: 由于StyleGAN对人脸特征的解耦设计,通过修改潜在向量中控制低层级的向量,生成器能够生成变换背景、发色等低维风格,同时保持人脸身份信息的三维感知人脸。如果进一步引入CLIP损失训练生成器,可以实现由文本驱动的风格化,但以上方法仅能实现较为简单的风格化,难以精细地控制风格化程度。

以下是开放性问题,欢迎读者朋友留言讨论:

Q:三维感知人脸风格化的难点在于图像相机视角与人脸身份信息耦合,如何在约束姿态的前提下,更好地把人脸的身份信息与风格特征解耦开?

转自:arXiv每日学术速递”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com