以下文章来源于深圳大学可视计算研究中心 ,作者胡佳平
导读
本文是VCC胡佳平同学对论文 Pastiche Master: Exemplar-Based High-Resolution Portrait Style Transfer 的解读,该工作来自商汤科技-南洋理工大学联合实验室S-Lab,并已发表在计算机视觉顶级会议CVPR 2022上。
项目主页:
https://www.mmlab-ntu.com/project/dualstylegan/
该工作提出了一种基于样例的高质量人脸风格化方法,该方法能够灵活地分别控制自然人脸域与风格化人脸域的样式,通过渐进的迁移学习策略在较小数量的风格化人脸数据集上学习,模仿特定风格域的人脸图像,实现基于样例的高质量人脸风格化。
注:本文
与视频均来自原论文与其项目主页。
I
引言
艺术风格肖像在与漫画、动画、海报和广告相关的行业中具有广泛的应用。基于样例的人脸风格迁移是计算机视觉领域一个热门问题。它的目的是将样例给定的艺术化人脸图像的风格转移到目标人脸上,只需提供一定数量的艺术人脸图像,任何没有美术基础的新手都能够轻松地将自然人脸图像转换为高质量的风格人脸图像。
基于图像翻译、图像风格化的人脸风格化方法有着广泛的研究,但这类方法往往依赖大量的训练数据且生成图像的质量有限。近年来,随着StyleGAN等生成模型的提出,研究者转向另一种基于迁移学习的人脸风格化方法,借助StyleGAN强大的表达能力,通过在一个小规模的艺术人脸数据集上微调StyleGAN模型,通常只需要数百个肖像图像和几个小时的训练时间,就可以将其生成空间从人脸领域转换到艺术肖像域。与图像风格转换和图像到图像的转换模型相比,它在质量、图像分辨率、数据需求和效率方面都显示出很大的优势。但该类方法只能学习艺术人脸数据集的一个总体风格,无法指定样例风格达到“定制化”的效果。
为了解决以上问题,本次导读论文提出了一种基于双路风格路径的人脸风格化方法,DualStyleGAN。首先,该方法保留了StyleGAN的内部风格路径来控制原始域——即自然人脸域的风格,同时另外增加了一条外部风格路径来对目标域——即艺术人脸域的风格进行建模和控制,这与标准的图像风格化问题中的内容路径与风格路径对应。此外,外部风格路径继承了StyleGAN的层级结构,使得DualStyleGAN能够灵活调整生成图像的结构风格与颜色风格,以实现更为灵活的人脸风格化。
II
技术贡献
本工作主要贡献如下:
提出了一种新的DualStyleGAN来表征和控制基于样例的高分辨率人脸风格迁移的内部风格和外部风格,且只需要几百个风格样本,该方法在高质量和多样化的艺术生成问题中取得了优于最先进方法的性能;
设计了一条外部风格路径,通过网络微调引入艺术风格特征,并在颜色和结构方面提供层次化的风格控制;
提出了一种新的渐进式网络微调策略,能够在具有架构变化的网络上进行更为稳定的迁移学习。
如下图所示,相比其他人脸风格化方法,DualStyleGAN在各种艺术人脸风格任务中,都取得了更好的人脸风格化结果。
图1 用户偏好得分,DualStyleGAN表现具有明显提升
III
方法介绍
本次导读论文方法主要由DualStyleGAN结构设计与DualStyleGAN训练策略两部分组成。
DualStyleGAN的结构设计
如图2所示,DualStyleGAN在StyleGAN的基础上增加了右侧的外部风格路径。在原始的StyleGAN中,网络右侧的输入为随机噪声,用于使生成人脸产生更多细小特征变化,加入噪声后的生成人脸更加逼真且多元化。DualStyleGAN将噪声输入模块更改为艺术人脸风格域的风格控制模块,通过一定的权重与StyleGAN内部风格(自然人脸特征)路径产生的风格编码融合,即可实现艺术人脸风格的迁移。
外部风格路径使用艺术人脸图像的 作为外部风格编码,用于捕捉发色、人脸形状等语义信息。给定一张人脸图像 和一张艺术人脸图像 通过 即可实现基于示例的人脸风格迁移,其中 为权重向量,默认为1。艺术人脸生成则由 实现,其中 为一个采样网络,通过学习外部风格编码的分布,将随机噪声映射为外部风格编码。当 时, 则变为一个标准的真实人脸生成器。
图2 DualStyleGAN的网络详细信息,
在StyleGAN的基础上新增右侧外部风格路径
外部风格路径的特别之处主要有以下两点:
分层次风格控制:由于StyleGAN的分层渐进结构,其中精细分辨率层和粗分辨率层分别模拟底层颜色风格和高层形状风格。在外部风格路径模块中,前7层控制大尺度结构方面的风格,后11层则控制小尺度颜色和纹理方面的风格。
残差预测:在低分辨率的层级(1-7),论文提出了一个调制残差块(ModRes)用于调整结构性风格。ModRes包含一个ResBlock来模拟在微调期间卷积层的变化,然后采用AdaIN模块进行风格调制。StyleGAN前7层的卷积特征经过ModRes模块得到残差特征乘以权重 之后加到原特征之上,完成人脸结构的调整。
DualStyleGAN的训练策略
由于添加外部风格控制模块会改变StyleGAN预训练的生成空间,因此论文提出了一种渐进的微调策略,包含以下三个阶段,各阶段的迁移学习的目标如图3所示:
图3 渐进式迁移学习各阶段的目标
1. 真实人脸域中的颜色迁移
在DualStyleGAN中,人脸颜色的迁移能够通过合理的模型初始化策略实现。具体操作为:将ModRes的卷积核初始化为接近0,再将线性层R的参数矩阵设置为单位矩阵。由于ModRes得到的残差接近0,且通过线性层的风格编码保持不变,使得网络依然保持了StyleGAN预训练模型原本的生成空间。
2. 真实人脸域中的结构迁移
这一阶段旨在对自然人脸域的DualStyleGAN进行微调,使得外部风格编码能够捕捉到中间层次的风格,如妆容等人脸特征。首先,随机采样两个风格编码 和
,
通过风格迁移方法获得风格融合的图像 然后约束DualStyleGAN(G)由内部风格编码 与外部风格编码 重建该图像,具体训练目标如下:
λ
λ
其中, 指编码 的前 项与编码 的后 项的混合。在训练过程中, 的值由7逐渐降低到5,与之对应,网络从 获得的结构信息逐渐增加,如图4所示,此阶段之后DualStyleGAN的生成人脸图像结构上更类似风格图像。
3. 艺术人脸域中的风格迁移
最终,在艺术人脸风格域内微调DualStyleGAN。为了更有效的引导DualStyleGAN找到真实人脸和艺术人脸之间的结构关系,论文提出一种去风格化构建真实人脸-自然人脸数据对的策略。去风格化的步骤与风格化相反:找到风格图像 在微调后的StyleGAN的风格编码,并将该编码应用到原始的StyleGAN上,得到对应去风格后的人脸图像
。
图4 面部去风格化示意图。
输入图像(a)在每个阶段的去风格化结果依次显示在(b)-(d)中
最后,如图5所示,将 的内部风格编码与S的外部风格编码作为DualStyleGAN的输入,用于重建 。此外,还使用对抗损失、风格一致性损失以及内容一致性损失共同约束网络。完整的训练目标如下:
λ
λ
IV
部分结果展示
图5比较了DualStyleGAN与其他人脸风格化方法的表现,其中StarGAN2, GNR, U-GAT-IT和FS-Ada生成256x256的图像,其他方法支持1024x1024的图像。Toonify, FS-Ada和U-GAT-IT学习数据集整体的风格,因此它们的结果与样例在风格上不一致。基于图像转换的StarGAN2和GNR受到训练集内容图像和风格图像数量失衡的影响,出现对风格图像过拟合的问题。UI2I-style能够很好地模拟颜色风格,但是无法很好地模拟结构风格。与这些方法对比,DualStyleGAN在颜色和结构两方面都取得了更好的人脸风格化结果。
图5 基于样例的人脸风格化方法结果比较
图6则展示了DualStyleGAN在动漫风格与卡通风格中生成各分辨率人脸图像的结果。
图6 DualStyleGAN在动漫风格与卡通风格的生成结果
V
总结与展望
该工作扩展了StyleGAN以接受来自的艺术人脸风格的输入,同时保留了其在真实人脸域中的风格控制,实现了基于样例的高分辨率人脸图像风格化,并且只需要一个小规模的风格人脸数据集。DualStyleGAN可以建模和调整自然人脸和艺术人脸风格,灵活、多样化地进行艺术化人脸的生成。
VI
思考与讨论
Q: 如果准备的人脸数据样本在某种属性比较单一,DualStyleGAN能否准确地风格化输入图像的该属性?
A: DualStyleGAN存在数据偏差问题。例如,动漫数据集对直发和刘海有很强的偏向,在此情况下该方法难以处理没有刘海的卷发,如图7(a)所示。
Q: DualStyleGAN的生成效果依赖StyleGAN预训练模型在真实人脸域的先验知识,处理较为抽象的风格是否对模型性能有较大影响?
A: DualStyleGAN在与真实人脸风格相近的卡通风格中风格化效果较好,但在较为抽象的漫画风格中,人脸的五官组件往往使用极简的线条表示,在这种情况下,网络可能不能很好定位到人脸的对应区域,使得风格化结果失真,如图7(b)所示,生成结果完全丢失人脸身份信息。
图7 DualStyleGAN方法缺陷
以下是开放性问题,欢迎读者朋友留言讨论:
Q: 人脸风格化结果与真实人脸的一致性往往依赖人的主观判断,怎样的人脸一致性指标更贴近人对人脸一致性的感观,从而更好地保留人脸身份信息?
转自:“arXiv每日学术速递”微信公众号
如有侵权,请联系本站删除!