00:00
各位小伙伴们大家好,在上个视频当中我们给大家去介绍了一下外部UI的连接方式,那下面我们就给大家来看一下在实践当中外部UI如何来进行图像生成,那首先我们进入到高性能应用服务hi平台控制台中,然后在控制台中我们找到我们的应用实例ID cutt,然后通过算力连接当中的web UI进入到web UI的控制界面当中。好,在这个界面当中,我们来给大家去说明一下每一个的作用,并且呢给大家演示一下图像生成的过程,首先我们来看这里,这个地方呢是我们要选择的模型,也就是说你要进行图像生成的时候,你的模型权重是什么,那你在这里就选择它就可以了,那在这里我们可以使用safe,也可以使用checkpoint,这些文件我都可以作为我们的模型权重来进行图像生成,因为这里我们是直接使用high平台当中给我们搭建好的stable来进行图像生成,所以这里它只提供了一个预训练模型,后期呢,我们会训练自己的模型,把它放到这里来进行图像生成,现在进行演示,我们就直接使用这个预训练模型来进行图像生成,这是我们在这里这个checkpoint模型权重的一个选择。那。
01:34
选择好模型权重之后,我们就可以来选择我们进行图像生成的方式,那图像生成的时候我们有两种方式,一种呢是文声图,也就说从文版到图像,另外一种方式是图声图,也说我从一种图像,一种风格的图像到另外一种风格的图像,或者是从进行图像修复,另外这里我们还可以去生成更高分辨率的图像,另外这个地方png iner是我要去上传图片的话,我可以从这里来上传我们的图片,上传图片之后,然后呢可以把它发送到我们的文图应用当中去,或者是发送到图生图的应用当中去,也可以发送到重绘或者提升图像分辨率当中,都是可以的,这是我们的png iner它的一个作用,那后面的checkpoint manager就是我们后续。
02:34
会上传自己的checkpoint,也就是模型权重,那这时候我们可以通过这里来配置,也就说来选择我们checkpoint之间的一个组合方式来生成图片,那在接下来就是我们的训练,那训练的时候呢,我们可以训练我们的embium,也就说文本的嵌入方式,我在进行处理的时候,我可以训练自己的文本嵌入方式,我不使用clip当中的文本嵌入方法,另外我们也可以去训练自己的画风文件。
03:08
还可以去做图像的预处理,那在这里去做模型训练的时候,大家注意一下,一般情况下送到stableion当中的图片大小我们建议都是相同大小的,那我们一般收集的图片大小都是不一的,也就是说有的大有的小,那这时候我们需要把我们的图片处理成相同大小,那这时候我们就可以使用这里的pre process image把图片处理成相同的大小,比方说我都把它处理成512乘以512的。另外这里还可以去做一个处理,就是当我们去训练模型的时候,我的图片和文本是一一对应的,那pre process image也可以帮我们去生成相应的文本来对图片进行描述,这是我们在这里这个图像处理的时候的一个内容,然后再接下来我就可以去训练我们的模型,我可以去训练我们的embedding嵌入的词向量,然后呢,还可以去。
04:08
练我们的画风网络,这些我们都可以通过train这个位置来完成,那除了去训练磁嵌入和画风网络之外,我们还可通过dream boss的方式来进行模型训练,那dream boss是我们现阶段去训练stableion的时候一个比较流行的方式,那到后续的课程当中,我们会专门给大家去介绍一下如何使用dream boss来训练自己的图像生成模型,后面呢,就是我们的设置啊,那在这里我们可以设置相应的一些参数,那比如说我们的诶图片在哪里呀,然后我们的图片的编号呀,还有图片的。类型啊,图片的文件格式啊,我们都可以在这里进行设置啊,比如说在这里我可以去设置我的保存路径,设置我的这个叫做哎,路径在哪里啊,然后设置我的这个叫做采样方式啊,设置我们在这里训练的方式,设置我们的VAE的方式,这些我们都可以来这里进行设置哈,那除了这个设置信息之外,我们在这里还有一个扩展插件,因为在我们这个stableion当中哈,比如说我现在用的是英文版本,那如果我想把它改成中文版本的话,那我可以去找相应的插件,把它改成中文的就OK了,那这里呢,有很多插件我们都可以进行使用哈,这是我们在stableion web UI当中,它给我们提供的这些功能,那对于这些功能来讲,我们主要给它去演示一下text to image,也就是纹声图它的一个使用,那纹声图使用的时候,我们来看一下,下面有两个。
05:50
和文本框,那这两个文本框分别来做什么呢?那在上面这个文本框,它是我们的正向提示词,也就说你要生成什么样的图像,那把它描述在我们的正向提示词当中就可以了,那现在大家要注意哈,在stableion当中,我们只支持英文的提示词,也说这里的提示词我必须送进去的是英文,那比如说在这里我们去生成一个cat,一个小猫,然后呢,这个小猫它有,哎,像我们讲义上一样啊,有火焰色的皮毛,有翠绿色的眼睛,然后呢,在草丛中,那这时候我们就可以把这些正向的提示词写在这个文本框当中,那这个提示词呢,我们在这就不给大家敲进去了哈,我把它准备在了一个文本文档当中,我直接从文本文档当中给大家复制过来,我们从文本文档当中把我们的。
06:50
的正向提示词复制过来,然后把它copy一下,然后拿过来,那这时候我们的正向提示词就会生成一只可爱的小猫,这只小猫有火焰色的皮毛,然后有翠绿色的眼睛,还有在草丛中,这是我们的正向提示词,那第二个文本框当中呢,我们使用的就是反向提示词,也就是说这个文本框当中的文本,文本框当中的特征,我生成的图片当中是不包含的,所以这些呢,我们跟我们讲义上一样,我们也直接从这里给大家复制过来,我去来作为我们的反向提示词,那这里面就包含什么,诶大家看一下,在这里我们就是一些错误的信息是不能出现的,也不能出现丑陋的令人恶心的什么东西,我们都不能让它出现,不能出现,哎,花朵我是在草丛当中,然后呢,也不能出现人类啊。
07:50
然后不管是男人女人都不能出现,这是我们在这里这个反向提示词,那我们设置好提示词之后,我就可以来生成我们的图现,那生成图片的时候,我们还可以选择一系列的内容哈,那generation这里就是专门去做图片生成的,这里有一系列的参数,那我们最后再来给大家去看这些参数哈,然后我们首先去看第二个tab页当中,那这里是干什么呢?大家想一下,我纹声图,我是不是得把我的文本转换成向量之后才能送入我的网络当中进行传输啊,所以这个地方你可以上传你自己的词向量生成网络,那一般情况下我们使用就使用clip当中固定好的词向量生成方式,当然如果你有好的选择,你也可以把它上传过来,那上传的时候就放到这个文件夹下面就OK了,放到这个文件夹下面我们的sta。
08:50
Co就自动的会调用我们的这个,你上传到词向量生成的网络来生成词向量之后再来进行图像生成,这是我们的词向量生成的网络,那除了词向量生成的网络之外,你还可以选择你的画风网络,也就说你可以训练你自己的画风网络,训练好之后把这个checkpoint放在这个文件夹下面,我们的stableion在生成图像的时候会到这个文件夹下面去找它的画风的一个效果,然后再接下来就是checkpoint,那这个checkpoint就是我们在这里选择的checkpoint啊,你把它放在我们的。
09:36
Stableion的文件夹下面,那这个checkpoint会自动的去检索我们的模型权重,那这时候如果你有多个模型权重的话,我们可以在这里去选择相应的模型权重,那在生成图片的时候,它会使用你选中的模型权重来生成,那除了这些之外,我们还有laa的模型权重,那Laura呢,也是我们在进行图像生成,图像模型训练的时候啊,一个比较常见的训练方式,那后面的课程当中,我们会打去说明一下如何使用LA来训练我们的模型,那训练好的模型怎么在stableion web UI当中来进行预测,也就是进行图像生成,这是我们在这里这几个内容哈,这几个就是为了去选择我们的权重的。好,那后面这几个table要我们给大家介绍,完成之后们再回到我们最重要的generation这一个里面来。那在。
10:36
Generation naation当中呢,我们在这里可以选择什么呢?采样方法,大家都知道我们在这里这个stableion来进行图像生成的时候,它实际上是一个扩散过程,那在这个扩散过程当中,反向过程我们就叫做采样过程,也就是说从噪声到清晰的图片的时候,它是一个采样过程,那这个采样过程当中,我使用什么样的算法来去除这些噪声,让我们更快的去生成一个清晰的图片呢?那这里我们就可以选择相应的方法,那大家看一下,在这里我们提供了很多的方法来进行去噪,那这里我们可以选择一个方法来作为我们的采样算法,那选择好采样算法之后,接下来我们再选择一下我们的采样步数,也就说你再进行从。
11:24
噪声到图片的时候,你要采样的次数,那通过我们的simple steps来进行设置,那这里我们就默认20次,那如果你觉得20次生成的效果不是很好的话,那你可以选择的多一点,或者是你觉得步数太多了,然后可以把它设置的小一些,这是我们在这里这个simple step,也就是说我们在生成图片的时候它的采样步数,那除了这些之外,我们还可以去做什么呢?我们本身生成的图片是512乘512的,那如果你想生成更高分辨率的图片的话,比方说你想从512乘512生成1024乘1024的,那这时候我们就可以选择higher fix页数,在这里我生成更高分辨率的图片,这是我们在这里进行选择的时候,那这里我们并不需要生成更高分辨率的,所以呢,我们在这就不进行选择了啊,这是我们在这里它就是要生成更高分辨率的图。
12:25
图片,另外再看下一个选项,那这个选项呢是我们的refine,这里呢,它是在我们stableion的模型的基础上再加一个模型,那这个模型我们叫做精化模型,这个精化模型是为了让我生成的图片当中包含更少的噪声,也就是说它的作用是去噪的,是在我们的SD叉L当中才出现的这样的一个结构,那如果你训练了这个精化模型,那你把它设置在这里,也就说你指定好之后,然后呢,这个精化模型就在我们的基础模型上来进行去噪,去噪之后我们再来获取最终的图片,这是我们在这里这个选项它的一个作用,那因为我们在这里没有训练这个精华模型,所以这里我们就给它设置成空的,好,这是我们在这里这两个参数,那除了这些参数之外,我还要设置一下什么呀?诶生成图像的。
13:25
宽和高,也就说你生成的那个图片,它的宽是多少,高是多少,我们通过I和he设来进行设置,设置好之后我生成的图片就是这样大小的,那这里除了设置图片的大小之外,你还可以设置图片的个数,比方说你设置哎一个呢,就生成一个图片,你如果设置比方说bench count是二,然后呢,Bench size是一的话,那你就会生成两幅图片,就是我们在这里生成图片的个数,通过它来进行设置。另外呢,我们还可以设置一下你生成的图片跟提示词的相关性,也就说你的图片跟你的提示词是不是相关,可以通过它来进行设置,那这个呢,我们一般设置为七就可以啊,默认就是七,然后再接下来一个参数是我们的随机数种子,这个随机数种子控制了你每次生成的随机数的一个结果。那你如果每次。
14:25
随机数是相同的话,那你最终生成的图片也是一样的,另外我们还可以去设置一下这个script这些参数来进行图像的生成,好设置好这些参数之后,然后接下来我就可以点击这个generate来生成我们的图片,那现在呢,把它点击一下,我们来看一下这个过程,那大家看一下在这里我就开始去生成的图片,那大家去观察这个过程的时候,刚一开始我是不是一个小的图片,慢慢的去生成了一个比较清晰的结果,对吧?这就是我们在这里这个生成的鼠啊,大家看在这个过程当中,我们生成的这个小猫是在草丛中,然后身体的颜色是不是火焰色的,然后眼睛呢,有点翠绿色啊,这是我们在这里这个生成啊,那我们在生成一幅图像来给大家去看一下啊,这个效果大家看刚一开始的时候啊,是不是一个小的图片,然后慢慢在这个小的图片上,它去提高它的分辨率。
15:25
获取到一个比较真实清晰的图片,这就是我们在这里这个生虫图像的结果,好,那这个生成图像的这里我们就给大家说这些,然后我们下面再看这个图像下面是什么?诶,这是不是我们的正向提示词啊,然后后面这里是我们的什么呀?诶反向提示词也说我生成的图片当中是不要包含这些特征的,然后还有相应的参数,大家看一下采样步数,采样方法,然后生成图片跟文本的相关性,还有我们的随机数种子,诶这些参数我们也都处理在这里了,那在这里我们生成这个图片的时候,大概是画了3.6秒,就是我们在这里这个生成图片的时候,生成了这样的一只小猫,好,那stable web UI它的使用方式我们就给大家演示这些,我们先把视频暂停一下。
我来说两句