首先,小编想要先问大家一个问题:下面图片中的小鸟叫什么?
我想基本上没有人能答对这个问题,因为在现实生活中,这只鸟并不存在。它是微软 AI 工具AttnGAN生成的一张假照片。
看到这,你是不是觉得它有点像我们之前介绍的能够把模糊的图片变清晰的 EnhanceNet 算法?事实上,AttnGAN 和EnhanceNet 有很大的区别。
EnhanceNet 算法效果图
AttnGAN 是微软研究实验室最近开发的一项人工智能技术,它可以让 AI根据类似于字幕的文本描述生成相应的图片。事实上,根据文本生成图像的技术并不新鲜,但是和此前的文本生成图像技术相比,AttnGAN 生成的图像质量提高了 3 倍。除此之外,它还拥有其他技术所没有的“想象力”。
以之前的那只小鸟为例,如果我们要画出一只小鸟,我们首先会在脑海中想象小鸟的样子:一只腹部红白相间、黑色翅膀、短喙的小鸟,然后在纸上勾勒出小鸟的轮廓,再用不同颜色的笔画出小鸟的各个部位,最后再画出黑色短小的鸟喙。
而 AttnGAN 也可以完成这样需要丰富想象力的工作,微软研究室的首席研究员认为这项技术主要的挑战还在于让 AttnGAN “想象”出文字描述中没有包含的细节。这就意味着,研究员们需要让 AttnGAN通过算法“想象”出图像中缺失的部分。
在生成小鸟图像的文本中,研究员并没有提到它会站在树枝上,其最终的结果是AttnGAN 在大量数据的基础上所生成的图像。这一切都是通过一个生成式对抗网络(Generative Adversarial Network, GAN)完成的。它由两个“敌对”的机器模型组成,一个负责从文本描述生成图像,另一个则负责判断生成图片的真实性。
如果生成的图片不合格,它就会重新生成图像。通过这个过程的不断循环,这个对抗网络让最终生成图片的可信度不断提高,从而产生让用户满意的图片。
图片 | fastcompany
转载请在后台留言,谢谢
-END-
▼
领取专属 10元无门槛券
私享最新 技术干货