前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >苹果“套娃”式扩散模型,训练步数减少七成!

苹果“套娃”式扩散模型,训练步数减少七成!

作者头像
量子位
发布于 2023-10-25 10:49:35
发布于 2023-10-25 10:49:35
3060
举报
文章被收录于专栏:量子位量子位
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI

苹果的一项最新研究,大幅提高了扩散模型在高分辨率图像上性能。

利用这种方法,同样分辨率的图像,训练步数减少了超过七成。

在1024×1024的分辨率下,图片画质直接拉满,细节都清晰可见。

苹果把这项成果命名为MDM,DM就是扩散模型(Diffusion Model)的缩写,而第一个M则代表了套娃(Matryoshka)。

就像真的套娃一样,MDM在高分辨率过程中嵌套了低分辨率过程,而且是多层嵌套。

高低分辨率扩散过程同时进行,极大降低了传统扩散模型在高分辨率过程中的资源消耗。

对于256×256分辨率的图像,在批大小(batch size)为1024的环境下,传统扩散模型需要训练150万步,而MDM仅需39万,减少了超七成。

另外,MDM采用了端到端训练,不依赖特定数据集和预训练模型,在提速的同时依然保证了生成质量,而且使用灵活。

不仅可以画出高分辨率的图像,还能合成16×256²的视频。

有网友评论到,苹果终于把文本连接到图像中了。

那么,MDM的“套娃”技术,具体是怎么做的呢?

整体与渐进相结合

在开始训练之前,需要将数据进行预处理,高分辨率的图像会用一定算法重新采样,得到不同分辨率的版本。

然后就是利用这些不同分辨率的数据进行联合UNet建模,小UNet处理低分辨率,并嵌套进处理高分辨率的大UNet。

通过跨分辨率的连接,不同大小的UNet之间可以共用特征和参数。

MDM的训练则是一个循序渐进的过程。

虽然建模是联合进行的,但训练过程并不会一开始就针对高分辨率进行,而是从低分辨率开始逐步扩大。

这样做可以避免庞大的运算量,还可以让低分辨率UNet的预训练可以加速高分辨率训练过程。

训练过程中会逐步将更高分辨率的训练数据加入总体过程中,让模型适应渐进增长的分辨率,平滑过渡到最终的高分辨率过程。

不过从整体上看,在高分辨率过程逐步加入之后,MDM的训练依旧是端到端的联合过程。

在不同分辨率的联合训练当中,多个分辨率上的损失函数一起参与参数更新,避免了多阶段训练带来的误差累积。

每个分辨率都有对应的数据项的重建损失,不同分辨率的损失被加权合并,其中为保证生成质量,低分辨率损失权重较大。

在推理阶段,MDM采用的同样是并行与渐进相结合的策略。

此外,MDM利还采用了预训练的图像分类模型(CFG)来引导生成样本向更合理的方向优化,并为低分辨率的样本添加噪声,使其更贴近高分辨率样本的分布。

那么,MDM的效果究竟如何呢?

更少参数匹敌SOTA

图像方面,在ImageNet和CC12M数据集上,MDM的FID(数值越低效果越好)和CLIP表现都显著优于普通扩散模型。

其中FID用于评价图像本身的质量,CLIP则说明了图像和文本指令之间的匹配程度。

和DALL E、IMAGEN等SOTA模型相比,MDM的表现也很接近,但MDM的训练参数远少于这些模型。

不仅是优于普通扩散模型,MDM的表现也超过了其他级联扩散模型。

消融实验结果表明,低分辨率训练的步数越多,MDM效果增强就越明显;另一方面,嵌套层级越多,取得相同的CLIP得分需要的训练步数就越少。

而关于CFG参数的选择,则是一个多次测试后再FID和CLIP之间权衡的结果(CLIP得分高相对于CFG强度增大)。

论文地址: https://arxiv.org/abs/2310.15111

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-10-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
苹果文生图大模型亮相:俄罗斯套娃式扩散,支持1024x1024分辨率
在生成式 AI 时代,扩散模型已经成为图像、视频、3D、音频和文本生成等生成式 AI 应用的流行工具。然而将扩散模型拓展到高分辨率领域仍然面临巨大挑战,这是因为模型必须在每个步骤重新编码所有的高分辨率输入。解决这些挑战需要使用带有注意力块的深层架构,这使得优化更困难,消耗的算力和内存也更多。
机器之心
2023/11/02
2580
苹果文生图大模型亮相:俄罗斯套娃式扩散,支持1024x1024分辨率
Transformer 和扩散模型的生成式 AI 实用指南(预览版)
在 2020 年末,一个名为扩散模型的鲜为人知的模型类别开始在机器学习领域引起轰动。研究人员找出了如何使用这些模型生成比以前技术产生的合成图像质量更高的图像。随后出现了一系列论文,提出了改进和修改,进一步提高了质量。到 2021 年底,出现了像 GLIDE 这样的模型,展示了在文本到图像任务上令人难以置信的结果,几个月后,这些模型已经进入了主流,如 DALL-E 2 和 Stable Diffusion 等工具,使任何人都可以通过输入所需看到的文本描述来生成图像。
ApacheCN_飞龙
2024/02/01
1.3K0
Transformer 和扩散模型的生成式 AI 实用指南(预览版)
Transformer再胜Diffusion!谷歌发布新一代文本-图像生成模型Muse:生成效率提升十倍
---- 新智元报道   编辑:LRS 【新智元导读】谷歌带着更强大的图像生成模型来了,依然Transformer! 最近谷歌又发布了全新的文本-图像生成Muse模型,没有采用当下大火的扩散(diffusion)模型,而是采用了经典的Transformer模型就实现了最先进的图像生成性能,相比扩散或自回归(autoregressive)模型,Muse模型的效率也提升非常多。 论文链接:https://arxiv.org/pdf/2301.00704.pdf 项目链接:https://muse-mod
新智元
2023/02/24
8710
Transformer再胜Diffusion!谷歌发布新一代文本-图像生成模型Muse:生成效率提升十倍
Stable Diffusion v1v2 解读
是图像编码器和文本编码器的组合,其训练过程可以简化为拍摄图像和文字说明,使用两个编码器对数据分别进行编码,然后使用余弦距离比较结果嵌入,刚开始训练时,即使文本描述与图像是相匹配的,它们之间的相似性肯定也是很低的。随着模型的不断更新,在后续阶段,编码器对图像和文本编码得到的嵌入会逐渐相似。通过在整个数据集中重复该过程,并使用大 batch size 的编码器,最终能够生成一个嵌入向量,其中狗的图像和句子「一条狗的图片」之间是相似的。就像在 word2vec 中一样,训练过程也需要包括不匹配的图片和说明的负样本,模型需要给它们分配较低的相似度分数。
iResearch666
2023/09/13
1.7K0
Stable Diffusion v1v2 解读
GAN强势归来?英伟达耗费64个A100训练StyleGAN-T,优于扩散模型
选自arXiv 作者:AXel Sauer 机器之心编译 编辑:赵阳 扩散模型在文本到图像生成方面是最好的吗?不见得,英伟达等机构推出的新款 StyleGAN-T,结果表明 GAN 仍具有竞争力。 文本合成图像任务是指,基于文本内容生成图像内容。当下这项任务取得的巨大进展得益于两项重要的突破:其一,使用大的预训练语言模型作为文本的编码器,让使用通用语言理解实现生成模型成为可能。其二,使用由数亿的图像 - 文本对组成的大规模训练数据,只要你想到的,模型都可以合成。 训练数据集的大小和覆盖范围持续飞速扩大。因
机器之心
2023/03/29
4510
GAN强势归来?英伟达耗费64个A100训练StyleGAN-T,优于扩散模型
模型老矣,尚能sota!Google Brain拿着2015年的扩散模型称霸图像合成,评分接近完美
自然图像合成(Natural Image Synthesis)是一类应用广泛的机器学习任务,但在不同的应用场景中都存在多种多样的设计难点。
新智元
2021/07/29
7030
AI绘画Imagen大力出奇迹生成图像
Imagen通过创新的设计,摈弃了需要预训练视觉-语言模型的繁琐步骤,直接采用了T5等大规模语言模型作为文本编码器,与扩散模型有机结合,完成了从文本到图像的直接关联映射。
Dlimeng
2023/12/27
4350
AI绘画Imagen大力出奇迹生成图像
Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务
Apple MM1Team 再发新作,这次是苹果视频生成大模型,关于模型架构、训练和数据的全面报告,87 亿参数、支持多模态条件、VBench 超 PIKA,KLING,GEN-3。
机器之心
2025/02/14
1860
Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务
最容易理解的解释Stable Diffusion(稳定扩散)原理的文章之一
在AI盛行的当下,文本生成领域由ChatGPT独领风骚,文生图领域的头部则要数Midjourney和Stable Diffusion了。本文的主旨是向大家介绍Stable Diffusion的原理,后续会推出几期Stable Diffusion相关的干货分享,敬请期待。
山行AI
2023/09/08
1.2K0
最容易理解的解释Stable Diffusion(稳定扩散)原理的文章之一
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 机器之心  授权 OpenAI:DALL・E 2 就是最好的。谷歌:看下我们 Imagen 生成的柴犬? 多模态学习近来受到重视,特别是文本 - 图像合成和图像 - 文本对比学习两个方向。一些模型因在创意图像生成、编辑方面的应用引起了公众的广泛关注,例如 OpenAI 的文本转图像模型 DALL・E、英伟达的 GauGAN。现在,来自谷歌的研究者也在这一方向做出了探索,提出了一种文本到图像的扩散模型 Imagen。 Imagen 结合了 Transfor
OpenCV学堂
2022/05/25
6440
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天
深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读
本文略长,需一定耐心看完!不当处望指出。 前言 扩散模型(DMs)将生成过程顺序分解,基于去噪自动编码器实现,在图像数据和其它数据上实现了先进的生成结果。此外,它们可以添加引导机制来控制图像生成过程而无需再训练。 然而,由于这些模型直接在像素空间中操作,优化扩散模型DM消耗数百个GPU天,且由于一步一步顺序计算,推理非常昂贵。为在有限的计算资源上进行DM训练,同时保持其质量和灵活性,本文应用了预训练自动编码器的潜在空间。与之前的工作相比,在这种表示上训练扩散模型,可以在复杂性降低和细节保留之间达到一个接近最
公众号机器学习与AI生成创作
2022/10/31
2.6K0
深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读
终结扩散模型:OpenAI开源新模型代码,一步成图,1秒18张
机器之心报道 机器之心编辑部 扩散模型的时代结束了。 在 AI 画图的领域,人们一直关注的是扩散模型,人们一直在尝试不断改进,推出了 Stable Diffusion、Midjourney、DALL-E 等技术,并在其基础上构建应用。不过最近,OpenAI 提出的全新生成模型看起来要让这一领域经历一场革命。 与高调推出 ChatGPT 、GPT-4 不同,这次 OpenAI 在上个月偷偷上传了一篇论文《 Consistency Models 》,也不能说是偷偷,只是这次没有媒体大张旗鼓的报道,就显得这项研究
机器之心
2023/04/21
3610
终结扩散模型:OpenAI开源新模型代码,一步成图,1秒18张
​丢掉注意力的扩散模型:Mamba带火的SSM被苹果、康奈尔盯上了
为了用更少的算力让扩散模型生成高分辨率图像,注意力机制可以不要,这是康奈尔大学和苹果的一项最新研究所给出的结论。
机器之心
2023/12/12
4470
​丢掉注意力的扩散模型:Mamba带火的SSM被苹果、康奈尔盯上了
手机上0.2秒出图、当前速度之最,谷歌打造超快扩散模型MobileDiffusion
在手机等移动端侧运行 Stable Diffusion 等文生图生成式 AI 大模型已经成为业界追逐的热点之一,其中生成速度是主要的制约因素。
机器之心
2023/12/05
5430
手机上0.2秒出图、当前速度之最,谷歌打造超快扩散模型MobileDiffusion
PASD:像素感知的稳定扩散超分辨率和个性化风格网络
图片在采集过程中经常面临着多重混合退化,例如低分辨率、模糊和噪声等。过去的深度学习模型因为模型设计时对忠实度的要求常常会给出过度平滑的结果。基于GAN的算法广泛应用于超分任务中,但是基于GAN的方法常常会产生伪影,无法生成丰富逼真的图像细节。DDPM在图像生成、图像转译领域取得了出色的成果,是GAN的有力替代品。基于DDPM/DDIM的文生图、文生视频先验被广泛应用于下游任务中。预训练的文生图稳定扩散模型能生成高分辨率高质量的自然图片,ControlNet使多类型的条件控制被应用到稳定扩散先验中。但是ControlNet不适用于像素感知的任务,直接使用会产生不一致的结果。也有一些基于Controlnet的超分辨率算法,但它们需要跳跃连接来提供像素级的信息,需要额外的训练。
用户1324186
2023/11/28
1.1K0
PASD:像素感知的稳定扩散超分辨率和个性化风格网络
混元视频:大型视频生成模型的系统框架
视频生成技术的最新进展极大地改变了个人与行业日常生活的面貌。然而,主流的视频生成模型仍为闭源,导致行业与公众社区在视频生成能力上存在显著的性能差异。在本报告中,我们提出了HunyuanVideo,这是一种新型开源视频基础模型,其视频生成性能可与主流闭源模型相媲美,甚至更优。HunyuanVideo具有一个综合框架,整合了多项关键贡献,包括数据整理、先进架构设计、渐进式模型缩放与训练,以及为大规模模型训练和推理设计的高效基础设施。凭借这些,我们成功训练了一个参数超过130亿的视频生成模型,成为所有开源模型中的最大模型。我们进行了广泛的实验并实施了一系列有针对性的设计,以确保高视觉质量、运动动态、文本-视频对齐和先进的拍摄技术。根据专业人工评价结果,HunyuanVideo的性能优于先前的最先进模型,包括Runway Gen-3、Luma 1.6和3个表现最佳的中国视频生成模型。通过发布基础模型及其应用的代码,我们旨在弥合闭源与开源社区之间的鸿沟。这一举措将使社区中的每个人都能够对自己的想法进行实验,从而培育一个更具活力和动态的视频生成生态系统。代码已公开发布在https://github.com/Tencent/HunyuanVideo。
AI浩
2024/12/19
5070
混元视频:大型视频生成模型的系统框架
10月发布的5篇人工智能论文推荐
由于现有基准和指标的限制,在开放式环境中评估大型语言模型(llm)是一项具有挑战性的任务。为了克服这一挑战,本文引入了微调llm作为可扩展“法官”的概念,称为JudgeLM,这样可以在开放式基准场景中有效地评估llm。该方法结合了大量高质量的法官模型数据集,包括不同的种子任务、LLM生成的响应和GPT-4的详细判断,从而为LLM评估的未来研究奠定了基础。JudgeLM作为一种可扩展的语言模型法官,其一致性水平超过90%,超过了人与人之间的一致性。该模型在处理各种任务时也表现出适应性。该分析解决了LLM判断微调固有的偏差,并介绍了增强不同情况下模型一致性的方法,从而增强了JudgeLM的可靠性和灵活性。
deephub
2023/11/06
2760
10月发布的5篇人工智能论文推荐
论文推荐:谷歌Masked Generative Transformers 以更高的效率实现文本到图像的 SOTA
基于文本提示的生成图像模型近年来取得了惊人的进展,这得益于新型的深度学习架构、先进的训练范式(如掩码建模)、大量图像-文本配对训练数据的日益可用,以及新的扩散和基于掩码的模型的发展。
deephub
2023/02/01
6800
马赛克变高清,谷歌将SR3、CDM相结合,推出超分辨率新方法
机器之心报道 机器之心编辑部 谷歌的研究者用两种有关联的方法提升了扩散模型的图像合成质量。 自然图像合成作为一类机器学习 (ML) 任务,具有广泛的应用,也带来了许多设计挑战。例如图像超分辨率,需要训练模型将低分辨率图像转换为高分辨率图像。从修复老照片到改进医学成像系统,超分辨率有着非常重要的作用。 另一个图像合成任务是类条件图像生成,该任务训练模型以从输入类标签生成样本图像。生成的样本图像可用于提高下游模型的图像分类、分割等性能。 通常,这些图像合成任务由深度生成模型执行,例如 GAN、VAE 和自回归模
机器之心
2023/03/29
1.1K0
马赛克变高清,谷歌将SR3、CDM相结合,推出超分辨率新方法
缩小规模,OpenAI文本生成图像新模型GLIDE用35亿参数媲美DALL-E
从年初 OpenAI 刷屏社区的 DALL-E 到英伟达生成逼真摄影的 GauGAN2,文本生成图像可谓是今年大火的一个研究方向。现在 OpenAI 又有了新的进展——35 亿参数的新模型 GLIDE。
机器之心
2021/12/27
8760
缩小规模,OpenAI文本生成图像新模型GLIDE用35亿参数媲美DALL-E
推荐阅读
苹果文生图大模型亮相:俄罗斯套娃式扩散,支持1024x1024分辨率
2580
Transformer 和扩散模型的生成式 AI 实用指南(预览版)
1.3K0
Transformer再胜Diffusion!谷歌发布新一代文本-图像生成模型Muse:生成效率提升十倍
8710
Stable Diffusion v1v2 解读
1.7K0
GAN强势归来?英伟达耗费64个A100训练StyleGAN-T,优于扩散模型
4510
模型老矣,尚能sota!Google Brain拿着2015年的扩散模型称霸图像合成,评分接近完美
7030
AI绘画Imagen大力出奇迹生成图像
4350
Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务
1860
最容易理解的解释Stable Diffusion(稳定扩散)原理的文章之一
1.2K0
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天
6440
深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读
2.6K0
终结扩散模型:OpenAI开源新模型代码,一步成图,1秒18张
3610
​丢掉注意力的扩散模型:Mamba带火的SSM被苹果、康奈尔盯上了
4470
手机上0.2秒出图、当前速度之最,谷歌打造超快扩散模型MobileDiffusion
5430
PASD:像素感知的稳定扩散超分辨率和个性化风格网络
1.1K0
混元视频:大型视频生成模型的系统框架
5070
10月发布的5篇人工智能论文推荐
2760
论文推荐:谷歌Masked Generative Transformers 以更高的效率实现文本到图像的 SOTA
6800
马赛克变高清,谷歌将SR3、CDM相结合,推出超分辨率新方法
1.1K0
缩小规模,OpenAI文本生成图像新模型GLIDE用35亿参数媲美DALL-E
8760
相关推荐
苹果文生图大模型亮相:俄罗斯套娃式扩散,支持1024x1024分辨率
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档