温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
各位小伙伴们大家好,接下来我们来看一下stable diusion架构当中的vae模型,那vae模型呢,在我们的sta diffusion当中呢,是放在unit结构的后面用来进行解码的,那首先我们来看一下vee模型是什么,那vee模型呢,它也叫做变分自动编码器,它是由两部分来完成的,一部分呢是编码器,一部分是我们的解码器,那编码器呢,它将我们的图像从像素空间当中降维到浅空间当中,解码器呢则将浅空间当中的数据转换回像素空间,从而获取到最终的图像结果。在stable当中哈,我们只需要使用的推理生成的过程当中,我们只需要使用到VE模型当中的解码器部分,也就是说我们只需要用解码器。
01:00
将在浅空间当中的特征转换为原始图像就可以了。好,下面我们来看一下地幅优先当中va ae的一个使用,我们来看这幅图,然后在diion当中,我们知道它图像生成的过程实际上就是一个去噪的过程,从原始的纯噪声当中一步一步的去除噪声,直到获取到一个清晰的图片。那为了减小计算量呢?我在这里去除噪声的时候,实际上是在浅空间来完成的,所以下面我们来看一下,那这是我们生成的浅空间的数据,也是说浅空间的一些噪声,那有了这些噪声之后,我要把它送到哪里去?要送到unit网络当中去进行去噪,那去噪时候大家看一下第一步的时候unit网络去噪,然后对于去噪的这个结果是不是浅空间呢?那这个浅空间呢?我需要通过谁通过我们的VE的decode转换成原始图像,那转换成。
02:00
原始图像最大,看下它是什么是。噪声还是噪声,是不是这是去除一次噪声之后的前空间的结果,对于第二次的时候呢,大家看一下它生成的这个就是这样子,然后第四次的时候呢,第五次的时候,然后一直往后,假设我们进行了50个时间不的去噪,那这时候潜在空间我就获取到了它,然后对于这个结果来讲,我是不是还得送到VE当中去,VE的解码器当中,那这时候解码出来的结果就是一幅清晰的图片了,这是我们在这里这个地幅优它的va ae解码器的一个使用,但大家来想一想,对于前面这些来说的时候,我的VAE有意义吗?也就说我对前面49步的结果来进行解码的时候,获取到这些图片有意义吗?诶,它并不是我想要的,最终的图片是不是?所以在stableion当中,你来进行解码的时候,只需要对最后一。
03:04
个时间部的潜在空间的结果来进行解码就OK了,所以整个推理过程当中,我只需要运行一次VE的解码器就可以获取最重的像素图像,这就是我们在这里这个VAE模型它的一个作用。好,那这个我们就给大家介绍这些,那我们把视频暂停一下。
我来说两句