00:00
好,小伙伴们大家好,接下来我们来看一下基于扩散模型的图像生成算法有哪些?首先我们来看一下搭类系列的模型,那大类系列的模型呢,是由美国open AI公司发布的,在open AI网站上向公众开放,它提供数量有限的免费图像和额外的购买图像服务。大类系列模型来生成图像的时候,主要提供的就是纹身图这个过程,然后在这里整个网络结构的构成呢,有两部分来构成,一个呢是clip模型,一个呢就是我们的。扩散模型,那克Li模型呢,是从文本到图像之间的一个映射,然后Di优善模型也是我们的扩散模型,用来生成图片,大家来看一下,在这里这是我们的文本,这是图片,也说这个文本描述的是这个图片,然后当我们把文本和图片的信息对应起来之后,把文本的信息送入到我们的扩散模型当中,生成出来的结果是这个样子的,大家看一下诶,它俩还是比较相似的,都是这句话来描述的这个图片信息,好,那这是大雷系列模型,它的一个网络架构,然后大雷系列生成的图片呢,非常的炫酷啊,大家看一下在这里,这是大类兔生成的图片啊,这是大雷三生成的图片。好,大类系列的模型呢,我们就给大家简单说这些,接下来我们再来看谷歌的图像生成模型,叫做imagine,那imagine呢?是2002年5月谷歌发布的文。
01:36
到图像的扩散模型,那这个模型呢,目前是不对外开放的啊,我们可以通过输入描述性的文本来生成图文匹配的图像,也是说image也是来做什么文声图的,它的整个过程是这样,大家看一下诶,你准备好文本之后,然后呢,它会把文本进行一个什么embedding,也就说进行词嵌入,嵌入之后,然后调用文声图的扩散模型,那这时候呢,它会生成一个64乘64的图片,然后对这个64乘64的图片,它在进行更高分辨率的扩散模型,它会生成256乘256的图片,然后256乘256的图片再送入到高分辨率的扩散模型当中,它可以生成1024乘1024的图片,也就是说image在生成图片的时候,它是从低分辨率到高分辨率依次来生成的,大家可以看一下64乘64的图片是这样大小的。
02:36
然后接下来256乘2561024乘1024这样大小的图片依次来进行生成的,啊,这是一枚阵,它的整个的一个思想,好,那我们来看一下这个具体流程是如何来实现的啊,首先它会有这样的一段文本,那这个文本呢,它会进行一个编码,那这个编码器啊,它的权重是冻结掉的,也就是说我就一直使用它来进行磁嵌入的生成,然后在这里我获取磁嵌入的结果之后,然后送入到图像生成网络当中,那这个图像生成就是我们的扩散模型,那扩散模型输入的是什么?是一个随机噪声,然后根据这个随机噪声我会生成64乘64的图片,那64乘64的图片太小了,所以我们要用超分辨率的模型,也说这个依然是一个扩散模型,生成的是相对大一些的模型,然后再接下来是这个,然后再送入到超高分辨率的模型当中来。
03:36
然后我会生成更大的图片,这是我们在这里这个image生成图片的时候,它的整个的一个过程,大类系列和image呢,它都是不开源的,那对于这样的模型呢,我们只能通过调用它的API或者是付费来进行使用,那如果我们想使用开源模型的话,哎,那就要借助于我们的stableion,那stableion它最大的特点就是stable呢是开源的AI图像生成器,它是有这几个团队啊,共同开源的,文本到图像的生成器是免费开源的,是我们在AI图像生成发展当中的里程碑,那现在我们去做的时候,大家一般情况下都会基于stableion这个开源的模型来进行图像生成,那stableion在进行训练的时候啊,他的训练呢是非常昂贵的啊,然后他在进行训练的时候,最初是用了4000台A100的显卡来进行训练啊。大家可。
04:36
你体现一下他的财力、理念和贡献精神啊,这是我们的stableion,那stableion虽然是开源的,但是它的作画质量是非常高的,而且跟你的内容契合度也很高,比方说我现在有一个promote,也是我们的提示语是郊区街区一栋房子的照片,灯光明亮,超现实主义艺术,高度细致,8K来生成图像的时候,大家看一下,这是它生成的一个图片,大家看这栋图片跟我们刚刚描述的这个文本是不是非常的契合啊,这是我们在这里这个stable diion它的一个内容,那在接下来的课程当中,我们就着重去给大家介绍一下stableion是如何来进行图像生成的,那后面我们也会给大家去训练一下我们的stableion,使用我们训练好的模型来进行图像的生成,好,那到这图像生成这一部分的内容就给大家介绍完成了,那在这里我们给大家介绍了常见的图。
05:36
的生成算法,包括VAE,然后game网络,还有我们的扩散模型,那基于扩散模型,现在比较常见的图像生成产品就是open AI的大类系列,然后谷歌的imagine,开源的stableion,好,那这一部分我们就给大家说这些。
我来说两句