吴恩达「试镜」,重回15岁!StyleGAN大升级,图像编辑更逼真
新智元报道
新智元报道
来源:reddit
编辑:小匀
【新智元导读】近日,一篇关于StyleGAN的论文引起了讨论。该技术在保留源图像人物的同时,在细节编辑上实现了更逼真的效果。
StyleGAN越玩越出色!
近日,以色列特拉维夫大学的研究人员对StyleGAN添加了一个特别的训练过程,把StyleGAN玩出新境界。
先来试试效果的,先登场的正是LeCun大神:
谁还没年轻过?
我不是严肃的深度学习巨头:
接下来是吴恩达:
年轻的我长这样:
除了面部年轻化,优化后的StyleGAN还能对人脸进行各种细微的调节,比如面部旋转:
reddit网友表示:「难以置信!去看看代码!」
PTI:基于潜意识的真实图像编辑的关键性调整
论文名为「PTI: Pivotal Tuning for Latent-based editing of Real Images」(基于潜意识的真实图像编辑的关键性调整)。
那么这个关键性调整是什么呢?
近些年,利用预先训练好的StyleGAN的生成能力,人们提出了一大批先进的面部编辑。但要想成功编辑图像,首先必须将图像投射(或反转)到预先训练好的生成器的领域。
然而事实证明,StyleGAN 的潜在空间打破了失真和可编辑性之间的平衡。
这篇论文提出的方法就弥补这一差距。他们稍微改变了生成器,因此域外的图像被映射到域内的潜在代码中。
枢轴调整( Pivotal Tuning)——一个简短的训练过程,是本文的关键想法。提供近乎完美的重建结果,同时保持原生 StyleGAN 潜在空间 W 的高编辑能力。
在PTI中,一个最初的倒置潜伏代码作为一个支点,围绕这个支点对发生器进行微调。
通过可识别的人物(例如下图中的塞雷娜-威廉姆斯和小罗伯特-唐尼),以及由于浓妆、造型而难以识别的面部(例如小丑)等,生成微笑、去掉胡须、各种表情pose等效果。
同时,一个正则化项使附近的特征保持不变,以局部遏制这种影响。
这种训练过程最终改变了主要代表身份的外观特征,而不影响编辑能力。为了补充这一点,作者进一步表明,枢轴调谐也可以调整发生器,以适应众多的面孔,同时对领域的其他部分引入可忽略不计的失真。
PTI 方法的说明。右侧:在关键调整程序之后。C保持了与A相同的高编辑能力,同时与B相比实现了更好的相似度。StyleGAN 的潜在空间以二维方式描绘,其中较暖的颜色表示 W 的密度较高,即具有较高可编辑性的区域。在左侧,作者说明了关键调整之前生成的样本。我们可以看到可编辑性 - 失真的权衡。必须在身份A和身份B之间做出选择。A位于更可编辑的区域,但与真实图像不同。B位于可编辑性较差的区域,这会导致伪像,但会引起较少的失真。
使用在 FFHQ 数据集上训练的 StyleGAN2 生成器,作者反转来自 CelebA-HQ 测试集的图像,并使用四种不同的指标测量它们的重建。
所有指标都表明该方法具有出色的重建能力。
目前,该存储库支持对以下项目进行定性评估:PTI、SG2(W 空间)、e4e、SG2Plus(W+ 空间)。以及使用 InterfaceGAN 和 GANSpace 编辑相同的反演方法。
图片顺序为:原图、W+反转、e4e反转、W反转、PTI反转
这也是最牛的地方,实验结果能把油画和手给生成出来。
不仅如此,论文还包括了来自 CelebA-HQ 数据集的图像比较。作者演示了姿势和微笑去除编辑。
SG2 W+ 上的编辑不会产生预期的效果,例如,第二行的嘴巴没有闭合。SG2和e4e实现了更好的编辑,但失真了。而PTI 则在保留清晰的同时实现了高质量的编辑。
源代码可以在:https://github.com/danielroich/PTI 找到。
参考资料:
https://www.reddit.com/r/MachineLearning/comments/o6wggh/r_finally_actual_real_images_editing_using/