本文为 AI 研习社编译的技术博客,原标题为 Celebrity Face Generation using GANs (Tensorflow Implementation),作者 Shubham Sharma。
翻译 | 王江舟 校对 | 吴晓曼 审核 | 余杭
生成式对抗网络(GANs)是深度学习中最热门的话题之一。 生成式对抗网络是一类用于无监督学习算法的人工算法,由两个神经网络组成的系统实现:
生成器
鉴别器
两个神经网络都在零和游戏框架中相互竞争。 生成式对抗网络(GANs)是一组模型,他们基本上学习创建与其给出的输入数据类似的合成数据。
鉴别器的任务是确定给定图像是否看起来自然(即,是来自数据集的图像)还是看起来它是人工创建的。 生成器的任务是创建与原始数据分布类似的自然外观图像,这些图像看起来足够自然以欺骗鉴别器网络。 首先给生成器一个随机噪声,使用它产生假图像,然后将这些假图像与原始图像一起发送到鉴别器。
鉴别模型的任务是确定给定图像看起来是自然的(来自数据集的图像)还是人工创建的。 这基本上是一个二元分类器,它采用普通卷积神经网络(CNN)的形式。 生成器的任务是创建与原始数据分布类似的自然外观图像。
生成器试图蒙骗鉴别器,而鉴别器试图不被生成器蒙骗。当模型通过交替优化训练时,两种方法都被改进到“假图像与数据集图像无法区分”的点。
生成对抗式网络的数学方程
我们可以认为这个方程由两部分组成,第一部分是从原始数据分布中采样的数据,第二部分是从噪声数据分布中采样的数据。
第一部分
鉴别者总是希望最大化其图像分类的正确率。 这里的图像是从原始数据分布中采样的,原始数据分布是真实数据本身。 D(x)是显示图像是真实的概率,所以鉴别器总是想要最大化D(x),因此log(D(x))应该最大化并且在这一部分内容中必须最大化。
第二部分
'z'是随机噪声样本,G(z)是使用噪声样本生成的图像。 这个术语的解释和之前很相似。 生成器总是希望最大化鉴别器被生成的图像蒙骗的概率。 这意味着,生成器想要最大化D(G(z)),因此它应该最小化1-D(G(z)) 也意味着(1-D(G(z)))最小化。
使用GANs 生成名人图像
名人图片数据集
CelebA数据集是超过200,000个带注释的名人面部图像的集合。 因为在这个博客中,我只是想生成面孔所以我没有考虑注释。
1)获取数据:
我创建了helper.py文件,你可以通过该文件下载CelebA数据集图像。 在运行此代码片段时,它将下载CelebA数据集。(源代码链接如下)。
2)预处理图像:
由于我仅在面部图像上工作,为获得良好的效果所以我将其调整到28 * 28。 我裁剪了图像中不包含图像部分的部分。
由于生成式对抗网络很难训练(你可以查看此链接,以了解为什么生成式对抗网络的训练如此困难?)https://medium.com/@jonathan_hui/gan-why-it-is-so-hard-to-train-generative-advisory-networks-819a86b3750b
为了获得准确的结果,我们应该拥有一个良好的GPU(4GB或更高版本),通过运行此代码片段,你可以了解是否使用自己的GPU安装了tensorflow。
3)模型输入和网络结构
我将图像的宽,高,channel和噪声参数作为模型的输入,随后生成器也会使用它们生成假图像。
生成器结构:
在解卷积层之后,生成器结构具有致密层和全连接层(除输出层外每一层都有批量标准化,leaky ReLu和dropout)。生成器将随机噪声向量z,之后把它重塑为4D形状并把它传递给一系列上采样层。每个上采样层都代表一个转置卷积运算,即反卷积运算。
所有转置卷积的深度从1024一直减少到3 ,它表示RGB彩色图像。 最后一层通过双曲正切(tanh)函数输出28x28x3张量。
鉴别器结构:
鉴别器的工作是识别哪个图像是真实的,哪个是假的。鉴别器也是具有批量归一化、lekeay Relu的4层 CNN(输入层除外)。鉴别器接收输出图像(大小为28 * 28 * 3)并对其进行卷积。 最后,鉴别器使用Logistic Sigmoid函数显示用于表示图像是真或假的输出概率。
当鉴别器看到图像中的差异时,它将梯度信号发送到生成器,此信号从鉴别器流向生成器。
4)生成器损失和鉴别器损失
鉴别器从训练图像和生成器两者接收图像,因此在计算鉴别器的损失时,我们必须增加由于真实图像和假图像造成的损失。两个网络被同时训练,所以我们需要将生成器和鉴别器都进行优化。 如果图像是真实的,我们希望从鉴别器输出接近1的概率,如果图像是假的,则输出接近0的概率。
训练和结果
当训练过程正在进行时,生成器产生一组图像,并且在每个 epoch 之后,它变得越来越好,使得鉴别器不能识别它是真实图像还是假图像。 结果生成如下
第1次Epoch和第2次Epoch之后
第3次Epoch和第4次Epoch之后
第5次Epoch和第6次Epoch之后
新面部图像不断地产生
我也从这里获得了预先训练好的网络,如果你想使用这个预先训练好的网络运行生成式对抗网络,那么请使用我在这里提供的这个python文件。
运行后,这将生成10个假图像的集合。 他们之中有一些是:
这些是从给定的预训练网络生成的假图像。
到这里就完成了与生成式对抗网络相关的内容。
领取专属 10元无门槛券
私享最新 技术干货