本文由人工智能观察编译
译者:Sandy
微软一直以来都在图像与文本的转化领域,不断努力着。不久以前,他们已经开发出了一个将图像转化为文本的AI应用程序,比如,苹果iOS设备上的Seeing AI程序可以将摄像头捕捉到的图像转换为文本,朗读给视障用户。
之后微软的开发人员进行了反向研究,而就在昨天,他们推出了一个全新的AI系统,简称“绘图机器人”,可以将文字转化为图像。
在此之前,微软已经着手开始了CaptionBot的研究。这是一种机器学习技术,可以为照片添加文字说明。然后,通过重新审视对基于神经网络的系统的研究,最新的系统可以像人一样处理视觉信息,并回答有关照片内容的问题。
为了充实新AI应用程序的“绘图”部分,微软必须设计一种技术,从本质上“想象”或填写标题中可能丢失的细节。
这就是所谓的“生成敌对网络”(GAN)的技术。
微软在声明中表示:“该网络由两个机器学习模型组成,一个通过文本描述生成图像,另一个是一种鉴别器,使用文本描述来判断生成图像的真实性。前者试图鉴别器获取伪造的图像,而鉴别器永远不希望被愚弄。所以,两者的结合会创造出更高质量的图像。
微软使用由图像和字幕对组成的数据集对系统进行了训练。它可以像一个有艺术造诣的人一样画图:先创建一个粗略的轮廓,然后反复引用文本描述进行细节填充。
为了将详尽的描述变成更细致的图像,研究人员创造了一个关于注意力的GAN,即AttnGAN。它可以模仿人类的注意力,将一个冗长的句子分解成单个的单词,而这些单词可以在屏幕上被准确地表示为视觉元素。
微软称,最终的结果是,现在的图像质量比之前的技术提高了近三倍。正如在其声明中所展示的那样,它创造了一幅美丽的图像,一只站在树枝上的鸟。
同时,微软的绘图机器人并不局限于以真实的语言为基础的视觉效果。据该公司介绍,这种技术也可以用来产生幻想场景,比如一辆漂浮的双层巴士。它也可以填补空白。
回到鸟的例子,绘图机器人通常会在树枝上绘制鸟类,即使输入的文本中没有提到树枝。这是因为许多用于训练AI的照片都显示出了一只坐在树上的鸟。
尽管公司的文本图像技术被用于绘画杰作可能还需要一段时间,但微软已经预见到了一些实际的应用。就像Cortana和其他虚拟助理帮助忙碌的专业人员计划一天的时间表一样,绘图机器人可能有一天会成为画家或室内设计师的素描助手。
领取专属 10元无门槛券
私享最新 技术干货