前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >GPT-4、Imagen、Stable Diffusion背后的技术支撑

GPT-4、Imagen、Stable Diffusion背后的技术支撑

作者头像
博文视点Broadview
发布2024-01-05 10:56:43
2240
发布2024-01-05 10:56:43
举报

图像这种模态的出现也有上千年的历史了,与文本类似,也是较为古老的一个模态。

常见的多模态转换就是文本生成图像或图像生成文本,即使有视频转图像,也更多的是将视频逐帧转换为图像,基本上未包含创造性和创意性的内容。

本文的图像多模态技术更多的是聚焦在图像生成和创作上,故本文将重点介绍文本生成图像多模态技术。

文本生成图像模型是一种经典的机器学习模型,一般以自然语言为原始输入,以与语义相关的图像为最终输出。

这种模型始于2010年左右,随着深度学习技术的成熟而发展。

近年来,行业涌现了很多优秀的文本生成图像模型,如OpenAI的DALL-E 2和GPT-4、谷歌大脑的Imagen和Stability AI的Stable Diffusion、百度的文心一言等,这些模型生成的图像的品质开始接近于真实照片或人类所绘制的艺术作品。

01

基于GAN的文本生成图像方法

学术界公认的第一个现代文本生成图像模型为AlignDRAW。

它于2015年由多伦多大学的Elman Mansimov等人发布(更多细节请参见论文“Generating Images from Captions with Attention”)。基于Microsoft COCO数据集训练而成的AlignDRAW模型主要用于标题生成图像。

模型的框架(属于编码器-解码器框架)可以粗略分成两个部分,一部分是基于双向循环神经网络(BiRNN)的文本处理器,另一部分是有条件的绘图网络、变形的深度递归注意力写入器(Deep Recurrent Attentive Writer,DRAW)。

由于采用递归变分自动编码器与单词对齐模型的组合模式,AlignDRAW模型能成功地生成与给定输入标题相对应的图像。

此外,通过广泛使用注意力机制,该模型比之前的模型效果更好。

尽管AlignDRAW模型的理念在行业中并没有激起太多水花,但编码器-解码器框架一直是文本生成图像技术的中流砥柱。

从2016年起,GAN被大量应用于文图对齐的任务中,成为图像生成的新起点。

随后行业中出现了很多改进版本,GAN在2021年之前一直是主流文本生成图像技术。GAN的主要灵感源于博弈论,通过生成器和判别器之间的不断对抗使得生成器学习到数据的分布,从而达到图文对齐的效果,其原理示意图如图1所示。

图1

基于GAN处理文本生成图像任务的早期大模型是GAN-INT-CLS,其整体架构如图2所示(更多细节请参见Scott Reed等人发表的论文“Generative Adversarial Text to Image Synthesis”)。

GAN-INT-CLS模型可以分为两个部分,左边为生成器,右边为判别器。

左边生成器的输入为文本编码和随机噪声,右边判别器的输入为图像和文本编码。

判别器通过判断生成的图像与文本描述是否贴合对齐的训练文本与图像,不断提高两者的贴合度,从而达到良好的生成效果。

图2

GAN-INT-CLS模型之后诞生了不少改进版本,如StackGAN、AttnGAN等。StackGAN是两个GAN的堆叠(见图3)。两个GAN分别为Stage-I GAN和Stage-II GAN(更多细节请参见Han Zhang等人发表的论文“StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks”)。

图3

图3中上方的是Stage-I GAN,它用于基于描述文本生成一张分辨率较低的图像,图像包含了目标物体的大致形状和颜色信息。图3中下方的是Stage-II GAN,它纠正了Stage-I GAN中低分辨率图像中的错误,并通过再次读取描述文本来完成对图像的细节描绘,从而生成高分辨率的逼真图像。

StackGAN的两阶段对齐方法提升了文本生成图像在细节上的性能。在StackGAN分层理念的启发下,Seunghoon Hong等人提出了一个新的方法,主要解决高维数据难以映射到像素空间的问题(更多细节请参见论文“Inferring Semantic Layout for Hierarchical Text-to-Image Synthesis”)。

其过程为将整个任务分解为多个子任务分步处理,图片通过Stage-I GAN、Stage-II GAN多次拟合文本,粒度从粗到细最终达到精细生成的效果。

02

基于VAE的文本生成图像方法

GAN在文本生成图像的历史中留下了浓墨重彩的一笔,之后受自编码器(Auto-Encoder,AE)框架等影响,一些科研人员将变分自编码器(Variational Auto-Encoder,VAE)引入文本生成图像领域。

VAE是一种改进版本的自编码器,能够生成具有高随机性和多样性的数据。与传统的自编码器不同,VAE引入了隐变量的概念,将输入数据压缩到一个低维的潜在空间中,然后从该潜在空间中采样来生成新的数据。

VAE也是一个编码器-解码器框架,编码器部分负责将输入数据映射到潜在空间中的编码表示,解码器部分则负责将潜在空间中的编码恢复为重构的输出数据。通过最小化重构误差和最大化潜在空间的先验分布与编码后的分布之间的相似性,VAE在文本生成图像上性能优异。

之后受到GPT的影响,研究人员试着将Transformer引入文本生成图像任务中,OpenAI于2021年提出了DALL-E模型。

DALL-E模型借助GPT-3和GAN框架来实现文本生成图像功能,其核心流程可以分为两个步骤:编码和解码。

由于DALL-E模型的参数多达百亿个,所以其性能十分优异。

在2020年之前,基于GAN和VAE处理文本生成图像任务是工业界和学术界的主流,而当前主流的文本生成图像技术当属于扩散模型,扩散模型已然成为当前文本生成模型的标配。

自2020年以来,H. Jonathan等人提出了去噪扩散概率模型(Denoising Diffusion Probabilistic Models,DDPM),CompVis研发团队提出了Stable Diffusion模型,这些新的模型无不使用扩散模型的技术理念,且性能非常好,这也是2022年被称为AIGC元年的一个重要佐证。

03

基于扩散模型的文本生成图像方法

扩散模型的理念最早于2015年被提出,它通过定义一个马尔可夫链向数据中添加随机噪声,并学习如何从噪声中构建所需的数据样本。

该模型的目标是通过扩散将数据逐步转化为所需的形式。与VAE或GAN不同,扩散模型用固定的程序学习,而且隐变量具有高维度。

DDPM是经典的扩散网络,为后续相关模型的研发奠定了基础。DDPM采用了U-Net框架,属于编码器-解码器框架范畴。它对之前的扩散模型进行了简化,并通过变分推理进行建模。

其中,编码器实现了顺扩散过程,解码器和编码器相反,将编码器压缩的特征逐渐恢复。DDPM比之前的所有模型都要优秀,直接将文本生成图像引入了扩散模型时代,之后所采用的扩散模型技术均可以追溯到这一模型。

Stable Diffusion模型(如图4所示)的框架由以下3个部分组成,分别为文本编码器、图像信息生成器、图像解码器。

文本编码器是一种基于Transformer的语言模型,采用自回归的编码理念,接收文本提示,生成高维的词嵌入;图像信息生成器主要实现扩散模型的反向过程,去噪声生成图像隐信息;图像解码器把隐信息还原成图像。

图4

以上摘自《多模态大模型:技术原理与实战》一书!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-01-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 博文视点Broadview 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档