00:00
好,哎,大家好,我是郑一周,我是呃stability AI的技术产品总监,其实是个global的啊,然后我们在做那个stableion,我主要负责stableion的推理,以及呃,API也可以叫service的这些部署的一些细节的,嗯,我刚掐了一下表,然后我看了一眼那个时间好像超时比较严重啊,所以我的时间我会向当稍微讲的快一点,然后把东西更多的留给呃咱们腾讯的小伙伴,后面有一个零,后面有一个workshop的分享,然后真正的大家让大家来用一下,那我只是很快速的给大家分享。
01:00
讲一下呃,一些关于呃stableion的思考,以及我们现在有做的一些呃API的工作,那stable大家都知道是一个呃从文本到图像的生成模型,那右边就相当于是一个例子说呃。Technology GP了,就是技术的一些支撑,用来想做技术的支撑,让AI去呃想象会变成什么样子,那这样AI会生成出来说呃有三个柱子在这边,呃在支撑着整个技术的发展,那它的一个呃特点呢,就是它能够释放更多人的想象力,我我之前其实是设计师,但我的设计师的抬头虽然挂着设计师的抬头不会画画。那呃,Stable能做到一件事情,让我们特别的exciting的事情是,呃,我作为一个不会画画的人,我可以通过呃文本,那我再往后走一步,我可以通过中改中间的算法,改一些生成的排peline来生成我想要的东西,在代码的空间里面去呃寻求自己能够想要表达的这样的一个视觉的影响。
02:10
呃,那stable有什么特点呢?我为什么会特别对他exciting呢?大概我会把它说成,我会把它说成三点,可希望可能是社区的大家,呃对于sta呃的观感,那第一点就是跨界,他重新定造定义的创造力,他的社区成员不只是呃像在座各位,呃偏工程偏或者是懂AI的人,也不只是像我这样,然后之前可能有一些设计背景的人,他会有很多来自于不同领域的,比如说我们老板是对冲基金的,比如说呃这个像给这个stable贡献了大量的一些社区代码的人,有的是学生,有的真的有的是设计师,然后我们现在的工作的,我的很多同事,有电影导演,有创有呃制作人这些共同的来贡献出这个技术的发展,那他跨界跨在两个部分,刚才说的是一部分说是我们的这个。
03:08
呃人员专业的跨界,那另外一部分就在于它是连接了文本和图像,它不单单是呃停留在文本的一个模型,它把文本和图像通过呃这个前空间类space联合接到一起,让各种呃不同,让不同的人都能够很好的呃通过文本去生成图像去来表达自己的创意。所以可以看到有很多数字啊,就是关于呃step从发布以来到现在呃产生的一些成果,那这里面这个three billion的这个数字呢,可能还是甚至有很多低估,因为有大量的在用户端自行部署的生成的,我们都没有够没能够计入到这个数名里面来。那再有一点呢,它是一个开源模型,那开源是stability的坚持,那开源模型我会说4.1个是方法透明,人人可用,然后权重开源,扩展简单,那这四点的构成了开源模型,就有可以让这个生态变得更繁荣,不只是完全的serve,就我们自己会有API,会有service类似的部署,但不只是我们有很多社区的成员在不同的呃infer下面做了service类和呃这个API的注数,比如说今天我们看到的会一会会看到腾讯的小伙伴在这上面做的一些呃部署的一些形式,那呃达成了这四点的开源模型呢,确实能对整个生态,呃整个生态的发展产生很大的一个推动的作用。
04:37
那再就是一个普惠,然创作没有从未如此简单过,那我会很喜欢这两张图,是他讲的是我们的沟通成本和这沟通效果之间的关系,那沟通成本最高的永远是视觉,然后最低的就是像我现在这样跟大家去做一些语音的这样的分享,那之前如果要做视觉传达的话,其实对大家的这个。
05:01
呃,一些技术水平是有要求的啊,我至少要会画画,我至少就算要偏PPT的话,我可能也要有一些美学的意识,可能拼出一个好看的PPT,那通过这样的文本到图像的生成模型呢,我们把这个沟通曲线拉平,更多的人可以用文本这个最简单的这个模态来驱动,说视觉传达是怎样的,那这样去让大家有更多的呃视觉传达的可能性。呃。那我会讲一下,说现在大家都是怎么用stable的,我会把它总结成两个极端,那一个极端呢,我们叫管它叫循环,或者是人与AI的共创,另外一个极端呢,是我要去控制AI,我去给AI更更精确的输入,让AI去exactly,就是完整的反映出我的意图。那我会分别来讨论一下这两边,呃,那先看一下人与AI共创的一个比较典型的一个例子,那呃,我说我要一个公主,然后他说他出现了一系列的公主的样式,那我看看到了以后说,嗯,可能跟我心目中想的公主会不太一样,那我会说我要一个阿拉伯公主,那AI再给我一些,呃回复,啊,上面多了一些头饰啊,然后这个,呃,这个叫什么呢?我也不知道应该叫什么,这些这些元素,然后再往下走一步,说我想要这样一个沙漠的background,我要用沙漠的背景,然后这样一步一步的,我和AI在不断的这个随机性的过程里面去探索,说我们要的是什么样的内容,那他几乎是你人给AI一个prompt AI给你一个结果,那AI给的结果其实对人来说也是一个prompt,会说,诶,有哪些地方我想的不一样,那我再给他去完善,然后这样形成一个循环,最终形成一个最终的一个结果。
06:47
那我们在这里面呢,也会去做一些产品化的探索,比如说像这样的一个产品就会呃,把这些个随机性和共创的内容去去呃,试图展现出来,比如说我给他一张图,会让AI反复的去给出不同的variation,然后我在这个variation上面去做更多的一些加工等等,对对,这个也是有API的,有有产品和API。
07:18
那。那另外一种呢,我们就要控制,控制就是右边那个图啊,这是老板,我们很喜欢拿老板开船,所以就用老板图当当例子,呃,我比如说我要一个就是要这样的一个结构做的做在这里的人,那我把我的老板做在那里的这个图片输入进去,那我的整个图的构图已经是确定的了,我的构图确定的情况下,去在上面去渲染不同的角色,或者说呢。呃,我已经有了一个完整的setting,我然后我只是要换到说,诶,我要把这个人变成这个暴风战士,那我就可以去,我可以通过这样的事,这样的方法去做这样的,呃,比较精确的控制,还有更多的例子,我现在没有放出来啊像呃,现在大家常用的一些类似于control net,然后腾讯这边发布了t two adapt这些技术,呃,基于staff去做的,那可以通过你画出的,呃,Sketch就是。
08:14
素描或者说是一些简笔画的结构来进行一些图片的控制,那呃同样的也会有一些产品,能够也会有产品来反映这一点,像这样的一个on,其实呃就是一个基于输出的一个输已有的输入的一个精确的呃扩展,那我们已经有了一张图片,那在这个图片周围,我可以去调整它的长宽比,去补全这个图片里面曾经呃没有的信息,然后让这个图片更适合去做生产应用啊这些都是一些比较直接的产品化的呃思考方向。对,然后刚才讲了很多SD啊,那其实嗯,Stability就我们公司做的也不完全是s stable这一个图像模型,也有其他的图像模型,比如说像这个,呃,Deeplo deeplo是一个,嗯,他没有浅空间,如果这里面有ML,或者对我们模型比较熟悉的话,说step前面堆了堆了一个MVE,就是那个rational,呃,Auto encoder那个,那个东西虽然降低了我们的呃成本,但同时对质量也是有一点点损失的。那像deeplo这个模型前面就没有这个东西,所有的都发生在RGB空间里面,它包括他的编码器也变得更加的强大,那就可以看到他写文字写的会特别好,然后他整体的生成质量也会更偏向一个生产质量,呃,曾经一度是fid打到了最低,但最近有其他的那个论文把我们的ffid打了下去,也是国内的工作,嗯。
09:46
那再有一个呢,就是现在我们正在做的SDXL,其实也stable stable X,它的表现力比原来更强,也可以写文字,然后比原来更容易使用,会有更好的图像构图,更稳定的风格等等,现在是在那个API上暂时可以用,然后依然在迭代,现在在处于一个research迭代的阶段,迭代完了以后是呃,会往开源方向去走的。
10:12
那所以类似于这样的模型,最终包括upsking等等啊,最后都不会成为问题,都会可以,不过这个投影呢,有点不太清楚哈,可能看的不是很明显,但质量呃,越往后走越不是一个我们需要特别担心的一个文图模型的一个壁垒。呃,对,他刚刚开始发展,那成本也是在快速下降的,我们先算单次的,单次生成的成本,这个2023年初的数据,现在比这个还要低一些,呃,从两分美金到00:02美金。那六,然后这个。速度也是快速生成啊,这当然是以512的这个最基础的生成,没有加任何的其他的东西做计算的啊,那。呃,这里面模型变得不断更快更便宜。但部署。
11:03
是怎么样的,因为像之前我们这在跟创业者,在国内,跟国内的创业者聊的时候,其实有人反映了一个问题,说哎,我的GPU利用率上不去,如果我的池子不够大的话,我的GPU利用率上不去,呃,我的GPU利用率上不去,呃池池子太大的话,GPU利用率上不去,我池子太小的话,我要排队,排队的用户体验变得特别差,怎么办?那我们给的方案其实是我们做了一个巨大的池子在呃云端,那云端有一个呃,Sorry,类STEM嘛,就是一个类似的一个特别大的一个服务,去提供给用户的一些呃推理啊等等的服务,同时这个服务也在扩展,那会在做一些更多的东西,比如说像刚才我们看到的可控制性的这一部分内容,那可控制性的基于呃现在的些开源技术,以及我们自研的一些东西呢,会提供更多的这种新概念的,呃。呃,新概新概念的这种,就通过草图设计来创建概念的这种服务,然后同时呢,也会有各种翻ing的这个server list的部分,然后弹性计算,随到随用,然后深度优化,不用调参与其叫开发友好。其实一会大家可以看到的,腾讯的这个方案跟我们这个方案也蛮也有点蛮蛮像的地方,那这一系列的在云端上的API部署呢,是真正的能够成大规模应用的,然后呃里面大量很多新的,呃功能呢,也在逐步的迭代。
12:29
那有了这些API才可以去成更多的工具整合,比如说跟Google s整合,去帮你画PPT的背景,就刚才的那个PPP的背景,就直接用Google Google来插件化的,然后跟blender整合去画这些,呃,输入输出的这种纹理的渲染,然后去跟Photoshop整合,虽然Photoshop现在也有自己的服务了,但是我们也有3D方的插,第三方的插件可以用,也有很多人for我们第三方的插件,然后去做这样的这些图像的生成和编辑。
13:00
也会去打包一些更复杂的拍peline去做类似于animation的事情,那现在是完全基于图片模型做的,而且没有加很多control的东西,你会看到出台的抖动啊等等等等,但这这是一个非常初步的一个能力的包装,那往后面继续推的话,不管是呃加上这种控制能力,还是加上这个视频模型,其实在API上面都能给大家一个更快更好、更更弹性的体验。对,然后也会去支持这些类似非常高并,呃,不能说非常高并发,但是对这个语音需求特别重的一些行业,比如说影视,呃,通过一些AI后期去做背景替换啊,然后在生产中去使用一些这些能力等等。对,那我的分享就到这里。
我来说两句