最近,计算机图形学经历了以数据为中心的方法的激增,用于照片级逼真和可控的内容创建。StyleGAN 尤其为关于图像质量和可控性的生成建模设定了新标准。然而,StyleGAN 的性能在 ImageNet 等大型非结构化数据集上严重下降。StyleGAN 是为可控性而设计的;因此,先前的工作怀疑其限制性设计不适合不同的数据集。相比之下,我们发现主要的限制因素是当前的训练策略。遵循最近引入的投影 GAN 范式,我们利用强大的神经网络先验和渐进式增长策略在 ImageNet 上成功训练了最新的 StyleGAN3 生成器。我们的最终模型 StyleGAN-XL,在大规模图像合成方面树立了新的最先进技术,并且是第一个在这样的数据集规模上生成分辨率为 $1024^2$ 的图像。我们证明该模型可以在肖像或特定对象类的狭窄领域之外反转和编辑图像。
论文作者:Axel Sauer, Katja Schwarz, Andreas Geiger
论文地址:
https://arxiv.org/abs/2202.00273v1