Google开发了可以在移动设备上,以次秒(Subsecond)速度执行文本转图像的模型MobileDiffusion。MobileDiffusion是一种高效的扩散模型,在iOS和Android高端设备上,能在半秒内生成512x512的高品质图像。MobileDiffusion相较于其他图像生成模型小上许多,只有5.2亿参数特别适用于移动应用部署。
当前文本转图像扩散模型越来越成熟,用户只要输入文本提示,模型就可生成高品质图像,但是先进的模移动辄拥有数十亿个参数,因此执行成本也非常高昂,需要强大的台式机或是服务器才能快速运算。
研究人员指出,造成文本转图像扩散模型性能低落的主要原因有两个,第一是扩散模型固有设计需要迭代去噪生成图像,而这需要对模型进行多次评估,第二则是文本转图像扩散模型网络架构的高复杂性,通常具有数十亿参数导致运算成本高昂。
由于这些性能上的障碍,尽管在移动设备上执行生成式人工智能模型,具有强化用户体验、高隐私性的好处,但目前研究仍相对较少。当然还是有一些提升文本转图像扩散模型效率的研究,像是通过数值求解器或是蒸馏技术,减少模型的功能评估数量(Number of Function Evaluations,NFE),希望借由降低评估所带来的运算负担。但即便如此,由于模型架构仍然非常复杂,在移动设备上即便是少量的评估步骤,仍然可能执行地很慢。
MobileDiffusion则是研究人员试图突破移动设备有限运算能力的限制,借由仔细查看Stable Diffusion中UNet架构每个组成部分和计算操作,设计出高效文本转图像扩散模型。MobileDiffusion遵循潜在扩散模型的设计,具有文本编码器、扩散UNet和图像解码器,研究人员使用适用于移动设备的小模型CLIP-ViT/L14,作为MobileDiffusion文本编码器,并将改进效率的重点,摆在扩散UNet和图像解码器上。
扩散UNet是一种深度学习模型架构,用于生成或是转换图像,本身是一种特殊的卷积神经网络,其特点是具有对称的U型结构,有助于模型在进行图像处理时保留细节资讯。研究人员主要使用两种方法来来提升扩散UNet的效率,第一是在模型瓶颈处,也就是资讯最集中的地方,使用更多的Transformer区块以降低计算量,第二是使用轻量级可分离卷积。卷积区块主要用于图像特征截取,但是传统卷积操作计算量大,因此研究人员通过使用可分离卷积,在不降低模型性能的情况下,减少需要的计算量。
除了扩散UNet,研究人员也着手优化图像解码器,通过训练变分自编码器(Variational Autoencoder,VAE)简化图像表示,使图像资讯能缩小至原图八分之一,减少存储和计算需求,并使用简化版的解码器明显提高性能,在降低延迟接近50%的情况下,还可以维持甚至提升图像品质。研究人员还采用了DiffusionGAN混合模型实现一步采样,这是一种结合扩散模型和生成对抗网络(GAN)的新技术,能够一步骤生成图像,相较于传统的多步骤方法快上不少。
虽然MobileDiffusion只有5.2亿个参数,却可以生成不同领域的高品质图像。由于MobileDiffusion只需要半秒钟便可以在移动设备上生成512x512图像,因此可以在用户边输入文本提示的同时,迅速生成图像,能应用于移动设备创造各种即时图像生成体验。
领取专属 10元无门槛券
私享最新 技术干货