据小道消息称,这一结束于2023年12月的议案结果,因为失败,让adobe的董事们睡觉都会笑醒,因为2023年作为AI元年,涌现出了一大波面向Visual的大模型,这让曾经陷入在UI/UX设计领域挣扎中的adobe瞬间清醒过来,并快速在photoshop等软件中引入了AI的能力,现在,新版的photoshop已经具备了inpaint等基于chat copilot形式的设计功能。正是因为并购案的失败,反而让其节省了200亿美元,adobe正是利用这200亿,实现了photoshop等设计工具的AI能力。
以midjourney和stable diffusion为代表的视觉设计AI领域,现在已经空前繁荣,相比于figma等技术流工具,AI设计领域的社区活跃度和贡献量超出老设计师们的想象,普通爱好者发烧两天专研,就能出一张惊艳四座的大片,而这在以前根本是不能想象的。在过去,即使拥有photoshop这样的顶级软件,想要不使用素材做出广告大片,其成本也是出奇的高。我认为,软件无法快速将设计师的思维反应,从而无法高度还原人脑想象,是核心原因。而在AI时代,通过大模型,直接省去了中间对软件功能的操作过程,速度快到可以让大脑想象与现实结果之间寻找调整边界,因此,更能激发人的创造力。
但是,现在的所有工具,我认为还是“太技术”了。以dreamina为例,虽然它的生图体验非常优秀,已经提供了非常多AI设计领域的常用能力,如抠图、局部重绘、扩图、提升画质、基于轮廓图生图、基于骨架图生图等等一系列能力,而且提供了不同的交互载体形式,可以算是国内非常优秀的面向普通有创意想法的人的产品了。然而,如果我换一个视角去看,从需要做深度创意的用户去看,dreamina的产品形态还是只能满足用户的单点需求。简单讲,用户如果只是想生成一张图片,用起来还是很爽的,但如果想让用户完成比较长流程的创意,则会遇到麻烦,或者说当前的产品形态还不支持,在这种场景下,它无非是把SD的webui更加简化,产品化,但是里面的参数还是过于技术,对于普通用户来说太烧脑。
站在用户的角度来说,他们并不需要参数控制,他们只想用最少的输入快速出图,他们是最有目的性的一群人。
几年前,我们看到影楼出的片,都会惊叹,果然花了钱就是不一样。这种语义下,设计软件是专业软件,甚至是专业工程软件,需要专业人士来操作。而设计本身又具有强烈的主观色彩,因此,这些专业的人,还必须在审美上符合客户需求。专业软件的特点就是功能特别多,原子化,任何目标都可以拆分为软件操作步骤,适用于任何场景。然而,也正是因为如此,普通人的创意被拒之门外,设计成了少数人的专享领域。
而AI设计的兴盛,起码从今年来看,打破了普通人创意输出的壁垒,我们任何一个人都可以通过dreamina等工具,做出自己的尝试。
过去,要P出一定效果的图片,是由各个技术指标配合特点操作逻辑而成,但现在,这些技术指标和操作逻辑被AI替代,比如对于用户而言,“抠图”“换背景”“抹除路人”等等,不再是技术过程,而是“一键功能”,一次点击即可搞定,甚至效果比请人PS更佳。AI将这些技术细节变成一个语义上的动作之后,设计软件就不该再像photoshop一样设计。我们应该重新设计设计软件了。
我认为,用户完成一次设计,要经历如下3个阶段:
看似简单的3个阶段,但在每一个阶段,我们都会面临一些思考。这些思考需要我们抛开自己是软件开发者的视角,从用户在真实场景下进行视觉创意时的所思所想,他们需要什么,我们能给到什么。
基于这样的思考,我开发了Visor这款软件。我以前从未想过自己能写成一款有模有样的设计软件,但在AI的驱动力下,我把我的一些想法逐一实现,并设计实现了第一个版本的Visor,它还不够那么完美,但是,从我的角度看,工具本身的完美程度并不解决实质性问题。Visor给了普通用户一次体验AI视觉设计的机会。接下来,我将详细阐述我在Visor上做的一些思考。
创意本身是虚拟的,没有形态,如何“无中生有”,将视觉效果落地呢?我认为“去躁”理论给了很有意思的答案。在人脑海中的概念效果,我们其实是无法捕捉的,只有向梵高、达芬奇等这样的大师,才能捕捉意识里的画面,对于我们普通人,我们会选择一种不断去除不确定性,抽丝剥茧,把那些明显“不是”的部分否决掉,最终留下来的,往往就是我们所要表达的。在视觉创意中,我们绝大多数人,都无法做到一发入魂,任何设计工具都无法让我们在第一次成形时就确定这就是我们的创意。因此,我们在开始创意设计阶段,我们会选择先排除那些我们不想要的,把我们最想要的部分保留下来。
Visor中,我们首先会看到一片空白,空无一物的时候我们首先想到的就是“创造点什么”。于是我们需要新建一点东西。我们需要新建一个图层,用于生成和编辑一张创意图片素材。
在这个图层中,我们将会生成我们需要的图片。
我们有几种选项:导入一张本地图片(以对该图片进行加工)、通过文本生成图片、通过参考一张图片的构图生成文本描述的图片、通过参考一张骨架图生成文本描述的图片。除了第一种从本地导入已有图片外,其他方式全部利用了AI的生成方式。
我们要无中生有一张新的创意图,和其他软件给出4张备选图不同,Visor中只会给1张,这给了选择恐惧症的朋友一点希望。如果你不满意,可以新建一个新图层,再生成一张,经过对比后,把最好之外的其他图层全部删除掉,这就是我前面说的“去噪”逻辑。
在AI生成图片时,Visor去掉了复杂难懂的参数,将参数收敛起来,只留给用户最简单的输入入口。
在AI的加持下,我们不再是通过photoshop式的通过软件工具,例如画笔、形状等,来绘制出需要的素材,而是直接来图。这就是AI所带来的变化。
不断去除我们不需要的部分,替换为我们想象中的部分,靠近我们的原始创意。“去噪”的核心理念,就是“在已有的基础上进行迭代,去除不想要的,替换出想要的,逼近最终的效果”。
在Visor中,当我们选择一种方式生成一张图片之后,我们可以对它进行优化。现在AI提供了局部重绘的能力inpaint,这种方式非常有意思,可以在画面中涂抹局部,然后通过文本提示来重新绘制该区域。这种操作,在传统软件中需要经过非常复杂的操作,而且有的时候,软件还无法通过其能力直接出效果,例如光照的效果,而在AI的加持下,这些复杂操作变成了涂抹+文本描述的方式,对用户的操作难度可以说极其低了。
使用inpaint能力,涂抹画面中的桌子,通过文本描述移除桌子
在Visor中,提供了如下的图像优化功能:文本描述的内容查找和替换、局部重绘(如上)、智能扩图、背景移除(只保留主体)、图像质量提升(分辨率放大)、裁剪、旋转。除开最后两项,其他选项全部基于AI实现。
对于创作者而言,Visor记录了整个创作过程,图像的变化过程,都可以通过记录了解,这让用户有更清晰的优化思路,能够根据以往的经验,提升优化质量。
从产品的角度讲,Visor不强调技术性,更关注用户如何能实现自己的目标。这种差异,就像美图秀秀和photoshop之间的关系一样。
用户拿到最终的结果,是用户的核心诉求,Visor中所有用户生成的图片都是开放的,可以下载原图。和其他AI设计类软件不同,我认为单纯只是围绕一张图做各种处理的情况并不是创作的常态,作为创作者,我们往往希望素材能够作为连续的序列输出。举个例子,我们在创作中,希望生成一组关联性强的,有故事可以讲的图片,如果用单纯的AI出图,需要在不同工具间切换,且为了保持一致性,需要复杂的配置。但作为普通用户,我们的直觉是什么?就是把我已经做好的素材,再复用一次。例如,我们可以用相同的一张底图作为背景,再在上面叠加不同主体和环境,从而让这一组照片有故事可讲。
首先,visor提供了combine功能,将多个图层组合在一起,获得一张独立的图片。之后,我们便可以利用组合出的新图层,做更深一步的优化,从而得到效果更好的效果。
利用combine,将多个图层组合成一张图
利用AI工具,再对组合出来的图片做细节优化,优化人物边缘与环境之间的关系
利用相同的背景图层,和不同的模特,组合出不同的片,形成系列宣传片。
可以看到,即使在头发丝的细节处,我们也可以处理的很自然
同时,Visor提供了Frame的概念,即用户可以在某个时刻点击save来创建一个记录帧(相当于一个snapshot),在之后,用户可以从这些帧中进行选择。
通过打帧,用户可以对创作中的一些阶段性成果进行固化。这一产品设计为将来也提供了功能深化的可能性,例如基于Frames直接出视频的能力,从而可以更好的控制一致性。
随着AI技术的不断进步,设计软件不再是专业人士的专属工具,而是变成了每个人都可以轻松驾驭的创意平台。Visor的出现,不仅让设计师们能够更快地实现他们的创意,而且还打开了创意表达的新大门,让普通人也能够享受到设计的乐趣。在这个AI时代,我们的创意潜力被无限放大,而Visor正是这一变革的见证者和推动者。随着AI的深入发展,相信未来还会有效率更高的方式,现在我们仍然需要选择调用哪一项AI的能力来处理,而随着大模型的发展,未来我们可能只需要用自然语言与软件交互,由软件来决策底层如何调用AI接口处理图片。