00:00
好,各位小伙伴们大家好,接下来我们来看一下变分子编码器,也就是vae是如何来进行图像生成的,那在这里介绍变分子编码器如何来进行图像生成的时候,我们主要通过它,通过我们这个框架来给大家去看一下啊,我们的图片如何来进行生成,那在这里大家看一下啊,这一边是我们的输入啊,也说我们的变分字编码器从这个输入图片当中来获取图片当中的信息,然后这边是我们的输出,也说我们的变分子编码器输出最终的结果,那下面我们来看一下从输入到输出变分子编码器经历了一个什么样的过程,好,那在这里大家来看一下,首先这个地方我们会经过什么输入图片要经过一个什么encoder network会经过一个编码器,那这个编码器我们是通过谁来实现呢?通过卷积来。
01:00
实现的,也就是说我们通过卷积层,然后呢,来对我们的图像进行特征提取,提取到特征的之后,那这个特征空间呢,我们就叫做是图像空间的一个潜在空间,大家想一想啊,我们原始的图片的维度相对于我特征图这个潜在空间来讲,它的维度肯定是比较多的,是不是,那它当中的信息呢,也是比较冗余的,那现在通过这个编码器之后,我就获取到了我潜在空间的特征,那我要描述我原始图像的特征的时候,大小我是不是就可以去描述我当前潜在空间的这个特征,那在我们的变分子编码器当中哈,我要描述潜在空间的特征的时候,我就通过一个概率分布来进行描述,那这时候我们选择什么概率分布来描述我们图像潜在空间的特征呢?哎,我们来选择我们的。
02:00
高斯分布,那要描述高斯分布的时候我要怎么样,哎,我就要有什么均值和方差,所以在这里我们就获取潜在空间当中各个特征的均值和方差,拿到这个结果之后,我们就可以利用。这些高斯分布来描述潜在空间的特征,那这时候我们的编码器的任务就完成了,那我编码完成之后,我是不是要去生成我的图片,那生成图片的时候我怎么去做呢?我就从潜在空间当中去进行采样,去进行采样,对每个特征来进行采样,那我采样出来的结果就是潜在空间的特征,那对于潜在空间的特征来说的话,它肯定不能是一幅图片,它只是一些描述了我图片信息的内容,那这时候我再经过什么?哎,在经过我们的解码器,大家看一下解码器我们用什么来做的,反卷器通过潜在空间的特征,然后我通过解码器之后,从潜在空间的特征就变成了图片,那这个图片就是我们最终生成的图片,最终生。
03:20
成的图片,诶,这就是我们这个变分子变码器,它整个的一个处理过程,好,那下面我们通过一个例子啊,来给大家去说一下这整个过程是如何来实现的,我们看右边这个图,那右边这个图当中啊,然后我们来分析一下它的整个过程,也是说变分子编码器啊,在这个例子当中,它实现的时候的整个内容,好那现在假设啊,我有一些人脸啊,我要去生成这个人脸图片,然后这时候我要对人脸图片来进行编码,所以呢,人脸图片要进行编码,那编码的时候要卷积来进行编码,编码之后我获取到了一系列的特征,那这些特征当中有什么呢?大家看一下,哎,这里就是我这一系列特征,大家看就是什么?哎,有微笑啊,有皮肤啊,有这个性别啊,然后有是否有胡子啊,然后有这个叫做。
04:11
头发颜色,那这各式各样的特征,那对于每一个特征呢,我都用什么来描述?哎,都用一个概率分布,也说在这里我们提取出来的均值和方差来进行描述,大家看一下微笑是不是有相应的均值和方差,我能描述成一个高斯分布,然后呢,我们的哎头发颜色是不是也可以来进行描述啊,那这时候大家看我们的每一个特征都是服从一个高斯分布的,那我要生成一个新的图片的时候,我要从这每个特征当中去做什么呀?采样,所以在这里接下来我就去采样,采样之后大家看一下还是这些特征,那这时候我可能采样的什么?哎,微笑的特征就是0.23,然后呢,皮肤颜色的特征就是0.22,然后呢,头发颜色的特征是0.33,那我对我采用的这个特征来进行解码。要说deco解码之。
05:11
后我就生成新的图片,这是我们在这里这种,那大家想在这个过程当中,我采样的时候,从前在空间当中,这些特征当中进行采样的时候,采样出来的结果有没有可能不一样呀,有可能是不是,那这时候不一样,大家看一下下面这里我们是不是还有一种采样,那采样出来的结果大家看就是,诶这样子,那这些特征跟刚刚采样出来的结果就是有差异的,然后对于这些差获取到的这些特征的结果,我们同样可以去做什么decode,然后生成新的图片,然后大家来看一下,这时候我们的VAE是不是就可以根据你学习到的我的图像当中的特征来生成各式各样的比较逼真的图片了,高质量的图片,这就是VAE它的思想,那在这大家想一想啊,如果我的呃,某个特征采样不一样的时候,那比方说下面这里啊,我的微笑是0.23,下面这个是0.17,大家想。
06:11
啊,是不是上面这个就比下面这个微笑的要更特征,要更多一些,对不对,所以在这里你每次采样出来的结果不一样,那你生成的图片也相应不一样一些,啊,就会生成多种多样的图片,这是我们在这里这个变分字编码器它的一个处理过程,好,那这个变份自编码器它的图片生成过程我们就给大家介绍完成了,那接下来我们来看一下变份字编码器它的一些特征哈,好,大家要知道va ae实际上还是什么呀,还是用深度深还是用深度神经网络来完成,大家看一下在这里我们的编码器和解码器当中,是不是都是卷积层和反卷积层来构成的,所以这整个网络结构还是一个卷积网络啊,然后呢,VE它是一种深度生成模型,描述的是潜在空间的概率特征啊,有高应用价值,因为它生成图片相对要逼真一些。而且在VE。
07:11
当中,它在进行编码器和解码器的时候,都是在哪里完成的潜在空间,也就是说我编码器是为了从图片到潜在空间,然后解码器是为了从潜在空间到原始图片,然后这是我们在这里这个编码器和解码器它的一个作用,然后我们在这里这个解码器它生成的图像特征的表示,你采样出来的特征表示不一样的时候,那生成的图片也是不一样的,也就是说图像经解码器之后会有多种特征啊,会有多种特征,包括我们刚刚说的微笑啊,肤色啊,性别啊这些特征,那你在采样过程当中啊,采的特征值哎不一样,那你生成出来的图像也是不一样的,所以在这里我们这个变分子编码器啊,它生成的图像根据你每次采样的结果哈,会展现出来。不一。
08:11
一样的效果,那这就是我们在这里这个变分字面自编码器来进行图片生成的时候的这个思想,好,那这个老师就给大家说这些呢,接下来啊,我们来给大家去看一下game网络是如何来进行图像生成的。
我来说两句