论文名称
Generative Adversarial Netsopen in new window
会议:NIPS2014
摘要
提出一个framework通过对抗的过程,估计生成的模型:同时训练两个模型。
一个生成模型G:抓住整个数据的分布,生成和原始数据相似的数据,G的训练过程最大化D犯错的概率。 一个辨别模型D:辨别一个数据是来自真实训练集,还是来自G生成的数据。
在任何函数空间的G和D,有一个独一无二的解,G能挖掘出原始数据分布,使D的预测概率为21.
Introduction
深度学习是发现丰富的、有层次的模型可以对各种AI应用的数据做出概率分布的表示。深度学习已经对辨别模型,取得了很大的进展,但是在生成模型上还有很大发展空间。这主要由于最大化似然函数,需要对概率分布近似,带来了计算上的困难,并且难以再生成上下文中利用分段线性单元的优势。
作者提出了对抗生成网络框架,生成模型与辨别模型对抗,辨别模型能够辨别数据的来源是生成模型或者原始数据分布,生成模型能够生成和原始数据相似的伪造物。
作者举了个例子,生成模型用于伪造货币并使用它,而辨别模型就像警察,辨认出伪造的货币。他们会改进他们的方法,直到伪造物难以与真正的数据中辨认。
大部分深度生成模型的工作集中在概率分布函数的参数化模型上,这些模型可以使用最大化对数似然函数训练,在这些模型中,最成功的或许是深度玻尔兹曼机,这些模型都有着难以计算的似然函数,需要对似然函数近似。
生成随机网络是一个能够使用反向传播训练的模型,而不是许多的近似。它通过消除生成随机网络中使用的马尔科夫链来扩展生成模型的思想。
Adversarial nets
对抗模型框架可以在模型都是MLP时直接使用。
定义generator在数据x上的分布pg,noise的分布为pz(z),将数据空间的映射表示为G(z;θg),其中G时可微函数,由参数为θg的多层感知器表示。
定义第二个感知器D(x;θd),其输出为单个标量。D(x)表示x来自原始数据而不是pg的概率。
训练D以最大限度的提高将正确标签分配给训练样本和来自G的样本。同时训练G最小化log(1−D(G(z))),即D和G遵循如下函数:
GminDmaxV(D,G)=Ex∼pdata(x)[logD(x)]+Ez∼pz(z)[log(1−D(G(z)))]
G和D有能力去恢复数据的分布。下图是对该方法的一个解释。
![GAN 解释](/DeepLearning/ReadingPapers/GAN/1.png)
生成对抗网络通过同时更新判别性分布(D,蓝色,虚线),使其对数据生成分布(黑色,虚线)px的样本和生成分布pg(G)(绿色,实线)的样本进行区分。下方的水平线是z的取样域,在这种情况下是均匀的。上方的水平线是x域的一部分。向上的箭头显示了映射x=G(z)是如何将非均匀分布pg转换。G在pg的高密度区域收缩,在低密度区域扩张。(a)考虑一个接近收敛的对抗对:pg与pdata相似,D是一个部分准确的分类器。(b)在算法的内循环中,D被训练成从数据中辨别样本,收敛到D∗(x)=pdata(x)+pg(x)pdata(x). (c)在对G进行更新后,D的梯度引导G(z)流向更有可能被列为数据的区域。被归类为数据的区域。(d)经过几步训练,如果G和D有足够的能力,它们将达到一个点,因为pg=pdata,D无法区分两种分布,即D(x)=21.
在实践中,训练的内循环中对D优化一方面计算量较大,另一方面容易导致过拟合。使用优化D的k次和优化G一次交替运行,只要G的变化足够慢,D就能保持在其最优解附近。如下图算法描述:
![GAN 算法](/DeepLearning/ReadingPapers/GAN/2.png)
在实践中,上述方程可能无法为G提供足够的梯度使其训练好,在学习的早期,由于G的效果很差,因此可以很有把握的拒绝样本,因为G生成数据明显和原始数据不同,这种情况下,log(1−D(G(z)))会达到饱和。与其训练G去最小化log(1−D(G(z))),不如训练G去最大化log(D(G(z)))。这个目标函数在学习早期提供了更大的梯度。
Theoretical Results
生成器G隐含地定义了一个概率分布pg,作为样本的分布G(z),当z∼pz时得到。因此,如果有足够的容量和训练时间,我们希望算法1能收敛到一个好的估计。
本节的结果是在非参数设置下完成的,通过研究概率密度函数空间的收敛性来表示一个具有无限容量的模型。
Global Optimality of pg=pdata
首先考虑优化分辨器D对任意的生成器G。
- Proposition 1. 对于给定的G,辨别模型D的最优为
DG∗(x)=pdata(x)+pg(x)pdata(x)
证明: 在给定任何生成模型G的情况下,判别器D的训练标准是最大化V(G,D)
V(G,D)=∫xpdata(x)log(D(x))dx+∫zpz(z)log(1−D(g(z)))dz
V(G,D)=∫xpdata(x)log(D(x))+pg(x)log(1−D(x))dx
对于∀(a,b)∈R2/(0,0),函数y→alog(y)+blog(1−y)当y=a+ba∈[0,1]时有最值。
D的训练目标可以解释为最大化估计条件概率P(Y=y∣x)的对数可能性,其中Y表示x是否来自pdata(y=1)或pg(y=0)。公式1中的minmax现在可以重新表述为:
C(G)=DmaxV(G,D)
C(G)=x∼pdata[logDG∗(x)]+x∼pdata[1−logDG∗(G(z))]
C(G)=x∼pdata[logDG∗(x)]+x∼pg[1−logDG∗(x)]
C(G)=x∼pdata[logpdata(x)+pg(x)pdata(x)]+x∼pg[logpdata(x)+pg(x)pg(x)]
- Theorem 1.当且仅当pg=pdata,C(G)达到全局最小值。在这一点上,C(G)达到的数值是−log4 证明: pg=pdata,DG∗(x)=21(Proposition 1),C(G)=log21+log21=−log4,为了说明这是C(G)的最佳可能值,只在pg=pdata时达到的最佳值,需要注意
Ex∼pdata[−log2]+Ex∼py[−log2]=−log4
从c(G)=V(DG∗,G)中减去这个表达式,可得
C(G)=−log4+KL(pdata∣∣2pdata+pg)+KL(pg∣∣2pdata+pg)
其中KL为KL散度,在前面的表达中认识到模型的分布和数据生成过程之间的JS散度。
C(G)=−log(4)+2⋅JSD(pdata∣∣pg)
由于两个分布之间的JS散度总是非负的,并且在它们相等的情况下为零。如果它们相等,我们已经证明C∗=−log(4)是C(G)的全局最小值,并且唯一的解是pg=pdata,也就是说,生成模型完全复制了数据分布。
算法1的收敛
- Proposition 2 如果G和D有足够的能力,并且在算法1的每一步,判别器被允许达到其最佳状态,并且pg被更新,以提高标准
Ex∼pdata[logDG∗(x)]+Ex∼pg[log(1−DG∗(x))]
那么pg收敛到pdata
证明:考虑V(G,D)=U(pg,D)作为上述标准中的pg的函数。注意U(pg,D)在pg中是凸的。凸函数的最高值的子导数包括函数在达到最大时的导数。凸函数最高值的子导数包括函数在达到最大值的那一点的导数。换言之,如果f(x)=supα∈Afα(x),且fα(x)在x中对每个α都是凸的,那么如果β=argsupα∈Afα(x),则∂fβ(x)∈∂f.这相当于在给定相应G的情况下,在最优D处计算pg的梯度下降更新。supDU(pg,D)在pg中是凸的,有一个唯一的全局最优,这在问题1中已经证明。因此,在对pg进行足够小的更新时,pg会收敛到px,从而结束了这个证明。
在实践中,对抗网络通过函数G(z;θg)代表了一个有限的pg分布系列,而我们优化的是θg而不是pg本身,所以这些证明并不适用。然而,多层感知器在实践中的出色表现表明,尽管它们缺乏理论保证,但它们是一个合理的模型,可以使用。
Experiments
实验主要基于MNIST、TFD、CIFAR10。
生成模型使用了sigmoid和ReLU激活函数,而判别模型使用了maxout激活函数。在训练辨别模型时使用了Dropout。虽然理论框架允许在生成模型的中间层使用dropout和其他噪声,但我们只将噪声作为输入到生成器网络的最底层。
优势和劣势
优点
- 不需要马尔科夫链。
- 学习过程中不需要推理,而且各种各样的函数都可以纳入模型中。
缺点
没有明确表示pg(x),而且D必须在训练过程中与G同步(特别是,G不能在没有更新D的情况下训练太多以避免出现 "Helvetica情况",即G将太多的z值折叠成相同的x值。