论文阅读:Rewriting a Deep Generative Model

论文链接:Rewriting a Deep Generative Model

0.摘要

关于GAN等生成网络是如何编码规则和更改规则的,目前尚不清楚。该文章提出一个新的思想:操纵已编码的深度生成模型规则。

论文提出了一些公式来操作深层网络的线性联想记忆(LAM),从而实现操纵规则目的。

论文做了三个工作:
– 提出算法。提出了一种修改关联记忆的算法,并证明了可行。
– 提供用户界面。使用户能够交互使用模型。
– 结果对比。在论文方法和其他方法之间进行结果对比。结果显示论文方法具有优势。

1.介绍

我们对模型进行了重写,其目的是添加,删除和更改预训练的深度网络的语义和物理规则。当前的图片编辑工具能够实现对单个输入图像的操作,但是我们的方法能够通过编辑生成模型中的规则来合成无数的新图像。

例如在图1中,我们应用一系列规则更改来编辑一个预先训练在LSUN教堂场景上的StyleGANv2模型。第一个改变去除水印文本模式(a);第二种增加了建筑物前的人群(b);第三个规则用绘制树梢的规则代替了绘制塔顶的规则(c)。创造了一个从塔上长出树木的神奇场景。因为每一次改变都改变了生成模型,每一次改变都构建了一个完整的图像类别,去掉了模型的所有水印,将人安排在多种建筑前,在塔顶创建树木。所示的图像是来自无穷分布的样本。


图1:重写生成器的权重以更改生成规则。
可以将规则更改为:(a)删除水印等图案;(b)加入诸如人等对象;或(c)更换定义,例如使树木从塔中长出来。我们的方法无需编辑单个图像,而是编辑生成器,因此可以使用更改后的规则合成和处理一组无限的图像。

但是,为什么重写一个深度生成模式会有用呢?生成模型在生成的图像中强制执行许多规则和关系。从科学角度来看,编辑这种模型的能力显示了模型是如何捕获内容的以及模型是如何生成没有见过的场景。在实际生活中,深度生成模型在图像和视频合成中越来越有用。在未来,整个图像集、音频、虚拟世界可以由深度网络来生成,并且对单个图像操作将变得乏味。因此,我们愿意提供工具来修改模型本身。有了这个能力,一组类似的编辑可以同时转换到许多图像。

一个关键的问题是如何编辑深层生成模型。计算机视觉社区已经习惯于使用大量的数据集和昂贵的人工注释来训练模型,但是我们希望让新手用户能够轻松地修改和定制一个深度生成模型,而不需要大规模机器学习的训练时间、领域知识和计算成本。在本文中,我们提出了一种新的方法来定位和改变模型中的特定语义关系。特别是,我们展示了如何将线性联想记忆的思想概括为深度生成器的非线性卷积层。每一层都将潜规则存储为一组隐藏特性上的键值关系。我们的约束优化目标是在关联记忆中添加或编辑一个特定规则,同时尽可能保留模型中现有的语义关系。我们通过直接测量和操作模型的内部结构来实现,而不需要任何新的训练数据。

我们使用我们的方法来创建多个视觉编辑效果,包括在场景中添加新的对象排列,系统地移除不需要的输出模式以及对物理光建模进行全局更改。我们的方法简单快捷,并且不需要大量注释:用户可以通过提供新规则的单个示例或少量示例来更改学习的规则。以交互方式修改GAN层中编码的特定规则。最后,我们在多个数据集上进行的定量实验表明,就照片写实和理想效果而言,我们的方法优于几种微调基准以及基于图像的编辑传输方法。我们的代码,数据和用户界面可在我们的网站上找到。

5 结果

我们从三个方面对模型重写进行了测试。首先,我们向模型中添加了新的对象,将结果与几种基线方法进行了比较。然后,我们使用我们的技术通过低等级改变来擦除对象,我们在具有挑战性的水印去除任务上测试了这种方法。最后,在一个模型中,我们将规则转换为明亮窗口与显示之间的物理关系的规则。


图4:在三种设置中,增加和替换对象。(a)用尖顶角代替圆屋顶,使得尖顶在整个模型中使用。(b)用树木代替穹顶可以产生不同于在训练集中看到的图像。(c)用张口微笑代替紧闭的嘴唇可以产生真实的张口微笑。对于每一种情况,我们都显示由未更改的模型生成的图像,然后显示编辑结果,包括模型进行了混合和模型没有混合(with and without blending)。最后一行显示了我们的方法。

5.1 将对象放入新的环境中

在此,我们在几个特定的模型中测试了我们的方法。在教堂生成器中,编辑模型将教堂的圆屋顶改变成尖顶,并将圆屋顶更改为树木。在face生成器中,我们加入了张口微笑。所有的编辑如图4中所示。

5.1.1 定量分析

在表1和表2中,我们将结果与多个基准进行了比较。我们将我们的方法与微调所有权重的传统方法进行了比较,同时也用了在不限制变化方向的情况下优化一个层的所有权重方法,还有最先进的图像对齐算法———Neural Best-Buddies(NBB),它通过根据识别的稀疏对应关系合成像素,从而在一组相似的图像上传播编辑。为了从目标图像中转移编辑,我们使用NBB和移动最小二乘法算法来计算我们想要编辑的源图像与原始目标图像之间的密集对应关系。我们使用这种密集的对应关系来将遮罩目标扭曲成源图像。我们测试了直接复制和拉普拉斯混合。

对于每一种设置,我们都对10000个生成的图像样本测量其有效性,我们还量化了每种方法所造成的不希望发生的变化。

2.

0

4 thoughts on “论文阅读:Rewriting a Deep Generative Model

Leave a Reply

Your email address will not be published.