温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
各位小伙伴们大家好,前面我们已经给大家介绍过stableion进行图像生成的原理,那接下来我们来看一下bleion的模型架构,那stableion呢,它并不是一个单一的模型啊,而是由多个模型组成的整个的一个图像生成系统,那我们根据各个技术完成的任务不同,我们把stableion的架构分成三部分,那在这里我们来给大家去看一下这三部分分别是什么?首先我们来看第一部分是这个文本编码器,那这个文本编码器的作用呢,是把我们输入进来的提示词转换为数值的形式,转换为数值的形式之后送入到我们的ion模型当中来进行处理。那ion模型呢,在这里它包含两个内容,一个是unit网络,那unit网络就是我每一步来去除噪声的时候,它的一个作用过程,然后schedule呢,在这里是指明我要去除噪声的方式是什么,也。
01:00
比如说我们的底模型当中是由unit和SCHEDULE2种方式来完成的,然后通过unit和schedule之后,我们在这边会输出一个潜在空间的生成的结果,那潜在空间生成的结果并不是我们最终想要的图像,那如果我想获取最终想要的图像的话,就要送到哪里去,就要送到我们的图像解码器当中,那图像解码器会将我们diffion输出出来的特征转换成一个我们想要的最终的图像,也就是生成一个RGB的图像,这就是我们在这里这个staion它的整个网络架构的一个内容。好,那下面我们就给大家来分别看一下clip模型,然后diion模型,还有我们的最后的解码器是如何来构成的?首先我们来看一下clip模型,那clip模型呢,是来进行文本编码的,也就是将我们输入到网络当中的提示词转换成编码的形式。输入就。
02:00
就是文本提示词,那输出呢,就是文本的嵌入向量,其中每个向量都包含768个维度,这是我们在这里这个clip test文本编码器,那我们这个clip test输出的嵌入向量会送到哪里去呢?会送到我们的diion扩散模型当中去,那ion扩散模型刚刚说到了,有两部分来完成,一部分是我们的unit,还有一部分是schedule,那unit呢来负责去除噪声,Schedule来确定去除噪声的方式,那我们获取的这个diion扩散模型注入有两个,分别是文本嵌入,还有一个由噪声组成的初始多维数组,我们的扩散模型就对这个文本嵌入和噪声来进行处理啊,完成我们的反向过程,去噪的这个过程生成一个清晰的结果,那这个清晰的结果大家注意一下,它并不是我们最终的图片,它只是一个经过反向传播之后的数据。那这个数据我。
03:00
来获取到最终的图片的时候,我还要送到哪里去,还要送到我们的图像解码器当中去,那在这里我们的图像解码器是由va ae模型来构成的,那在这里我们的va ae模型当中输入就是迪芙优善扩散模型当中输出的信息矩阵,它的大小一般就是四,64 64这样的大小,那输出的结果就是我们最终生成的图像,各个维度呢,就是它通道,通道就是红、绿、蓝三个通道,然后宽和高都是512乘512的,当然你也可以输出其他分辨率的,比如说你要生成1024乘1024的图片也是OK的,这是我们在这里这个stable us模型它的整个构成,那接下来我们就给大家去详细的介绍一下clip模型是如何来进行文本编码的,Unit和schedule是如何来进行扩散的,来生成潜在空间的数据,Image decode也是我们的vae模型如何来进行解码。
04:00
的好,那现在我们首先把这个视频暂停一下。
我来说两句