Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >突破性进展:简单有效的新型Masked扩散模型革新语言生成,与自回归模型媲美

突破性进展:简单有效的新型Masked扩散模型革新语言生成,与自回归模型媲美

作者头像
zenRRan
发布于 2024-06-18 09:00:54
发布于 2024-06-18 09:00:54
4400
举报

论文:Simple and Effective Masked Diffusion Language Models 链接:https://arxiv.org/pdf/2406.07524 代码:https://github.com/kuleshov-group/mdlm

1. 这篇文章想解决什么问题?

文章旨在解决扩散模型(diffusion models)在生成高质量图像方面表现出色,但在语言建模(language modeling)任务中与自回归(autoregressive, AR)方法存在显著性能差距的问题。作者指出,尽管扩散模型在生成离散数据(如文本、生物序列和图)方面具有潜力,但在语言建模的性能上,与AR方法相比,先前工作的扩散模型报告了较大的对数似然差距。

2. 论文用什么方法解决什么问题?

文章提出了一种简单的掩蔽扩散语言模型(Masked Diffusion Language Models, MDLM),并结合有效的训练策略来提高性能。作者开发了一个经过良好工程实现的MDLM,显著提高了离散扩散对数似然,并进一步通过一种基于替换的参数化(SUBS)来改进反向扩散过程,从而导出一个简化的、Rao-Blackwellized的连续时间变分下界(ELBO),提高了紧度和性能。此外,该目标具有简单的形式,是掩蔽语言建模(MLM)损失的加权平均,可以用于训练仅编码器的语言模型,这些模型具有高效采样器,包括能够像传统语言模型那样半自回归生成任意长度文本的采样器。

3. 论文做了哪些实验?

作者在语言建模基准测试中评估了MDLM,包括LM1B、OWT和DNA数据集。他们还对MDLM进行了零样本(zero-shot)评估,以测试模型在未见过的数据集上的泛化能力。此外,作者还在GLUE基准测试中评估了通过MDLM微调的BERT模型在下游任务上的表现。在基因组序列建模方面,作者预训练了DNA序列模型,并观察到与经典BERT风格训练相比,下游性能相似或更高,同时还引入了传统掩蔽DNA语言模型所缺乏的生成能力。

4. 论文或者方法有哪些局限性,未来工作是什么?

文章中提到,尽管MDLM在语言建模基准测试中取得了新的最佳性能,并且接近AR模型的困惑度(perplexity),但与AR模型相比,MDLM的性能仍有提升空间。此外,文章还提到了通过简单的工程选择显著提高了性能,这表明未来可能有更多的改进空间。关于未来工作,作者提到了将框架扩展到非语言领域的可能性,例如在生物序列建模方面的应用。文章还提到了在不同噪声方案下评估MDLM,并探讨了连续时间框架对于性能的影响。

文章的贡献在于提出了一个简单的MDLM框架,并通过有效的训练策略和简化的变分下界目标,显著提高了扩散模型在语言建模任务中的性能。此外,作者还提供了代码,以促进社区进一步的研究和开发。

kimi+人工共同完成

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
deephub
2024/07/01
3340
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
爆火Block Diffusion引发LLM架构变革?自回归+扩散模型完美结合 | ICLR 2025
扩散模型被广泛应用于生成图像和视频,并且在生成离散数据(如文本或生物序列)任务上的效果也越来越好,与自回归模型相比,扩散模型有望加速「生成过程」并提高模型输出的「可控性」。
新智元
2025/03/27
1180
爆火Block Diffusion引发LLM架构变革?自回归+扩散模型完美结合 | ICLR 2025
ICML 2024 | 扩散语言模型是多才多艺的蛋白质学习者
今天为大家介绍的是来自字节跳动Quanquan Gu团队的一篇论文。这篇论文介绍了扩散蛋白质语言模型(DPLM),这是一种多才多艺的蛋白质语言模型,展示了对蛋白质序列强大的生成和预测能力。首先,作者在一个生成自监督离散扩散概率框架中,使用进化尺度的蛋白质序列进行可扩展的DPLM预训练,这以一种有原则的方式推广了蛋白质的语言建模。在预训练之后,DPLM展示了无条件生成结构上合理、新颖且多样的蛋白质序列的能力。作者进一步证明了所提出的扩散生成预训练使DPLM对蛋白质有更好的理解,成为一种更优的表示学习者,可以针对各种预测任务进行微调,与ESM2相比具有优势。此外,DPLM可以根据各种需求进行定制,展示了其在多种条件生成方面的强大能力:(1)基于部分肽序列的条件生成,例如高成功率地生成功能基序(functional motif)的支架(scaffold);(2)将其他模态作为条件,如结构条件生成用于逆折叠;(3)通过插入式分类器引导,将序列生成引导至所需的特性,例如满足指定的二级结构。
DrugAI
2024/07/05
2980
ICML 2024 | 扩散语言模型是多才多艺的蛋白质学习者
何凯明入职 MIT 首次带队提出Diffusion Loss,借鉴扩散模型思想让自回归模型抛弃矢量量化 !
自回归模型目前是自然语言处理中生成模型的实际解决方案。这些模型基于前面的词作为输入来预测序列中的下一个词或标记。由于语言的离散性质,这些模型的输入和输出处于分类的、离散值的空间。这种普遍的方法导致人们普遍认为自回归模型与离散表示固有地联系在一起。
公众号-arXiv每日学术速递
2024/06/25
1.4K0
何凯明入职 MIT 首次带队提出Diffusion Loss,借鉴扩散模型思想让自回归模型抛弃矢量量化 !
逐字生成非最优?试试逐「块」生成!Block Diffusion打通了自回归与扩散
如今,扩散模型被广泛用于生成图像和视频,并在生成文本或生物序列等离散数据方面变得越来越有效。从技术上讲,与自回归模型相比,扩散模型具有加速生成和提高模型输出可控性的潜力。
机器之心
2025/03/17
1150
逐字生成非最优?试试逐「块」生成!Block Diffusion打通了自回归与扩散
ICCV 2023 | 从14篇论文看如何 改进扩散模型diffusion ?
文本到图像扩散模型,使得生成多样且高质量的图像成为可能。然而,这些图像往往在描绘细节方面不够精细,并且容易出现由于输入文本的歧义导致的错误。缓解这些问题的一种方法是在带类标签的数据集上训练扩散模型。这种方法有两个缺点:(i)监督数据集通常与大规模抓取的文本-图像数据集相比较小,影响生成图像的质量和多样性,或者(ii)输入是一个硬编码标签,而不是自由形式的文本,限制了对生成图像的控制。
公众号机器学习与AI生成创作
2024/01/10
4.5K0
ICCV 2023 | 从14篇论文看如何 改进扩散模型diffusion ?
语言模型新范式:首个8B扩散大语言模型LLaDA发布,性能比肩LLaMA 3
本文由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队和蚂蚁集团共同完成。共同一作聂燊和朱峰琪是中国人民大学高瓴人工智能学院的博士生,导师为李崇轩副教授,论文为二者在蚂蚁实习期间完成。蚂蚁集团张晓露、胡俊,人民大学林衍凯、李崇轩为共同项目负责人。李崇轩副教授为唯一通讯作者。LLaDA 基于李崇轩课题组的前期工作 RADD [1] 和 SMDM [2]。目前这两篇论文均已被 ICLR2025 接收。
机器之心
2025/02/19
1170
语言模型新范式:首个8B扩散大语言模型LLaDA发布,性能比肩LLaMA 3
每周AI论文速递(240603-240607)
虽然 Transformer 是深度学习在语言建模成功的主要架构,但诸如 Mamba 之类的状态空间模型 (State-Space Models, SSM) 最近已被证明在小到中等规模上能够匹敌甚至超过 Transformer。我们展示了这些模型家族实际上关系非常紧密,并开发了一个丰富的理论框架,通过对一类研究良好的结构化半可分解矩阵进行各种分解,将 SSM 与注意力变体联系起来。我们的状态空间对偶 (State Space Duality, SSD) 框架使我们能够设计出一种新架构 (Mamba-2),其核心层是对 Mamba 选择性 SSM 的改进,使速度提高了 2-8 倍,同时在语言建模方面继续与 Transformer 竞争。
叶子的技术碎碎念
2025/04/08
450
每周AI论文速递(240603-240607)
每周AI论文速递(240401-240405)
我们推出了 Jamba,这是一种基于创新的混合 Transformer-Mamba 混合专家 (MoE) 架构的大型基础语言模型。Jamba 特别地将 Transformer 和 Mamba 层交替布置,兼顾了这两种模型体系的优势。在部分层中融入了 MoE 技术,以扩大模型容量,同时确保参数的活跃使用保持在可控范围内。这种灵活的架构支持针对特定资源和目标的配置。在我们实施的特定配置中,成功构建了一个强大的模型,该模型能够在单个 80GB GPU 上运行。Jamba 在大规模构建时,相比传统 Transformer,提供了更高的吞吐量和更小的内存占用,并在标准语言模型基准测试和长文本评估中展现了卓越性能。值得一提的是,该模型在长达 256K token 的上下文中显示出了强劲的性能。我们对如何结合 Transformer 和 Mamba 层,以及如何混合不同的专家进行了深入研究,并发现其中某些决策对大规模建模至关重要。我们还发现了 Jamba 在训练和评估过程中展现出的几个有趣特性,并计划发布不同消融测试的检查点,以促进对这种新型架构的进一步探索。我们将 Jamba 实现的权重以宽松的许可证形式公开提供。
叶子的技术碎碎念
2025/04/08
710
每周AI论文速递(240401-240405)
利用大型语言模型和扩散模型大规模生成视觉最小变化数据,提升VLMs的细粒度理解能力 !
细粒度地理解目标、属性及其关系对于视觉-语言模型(VLMs)有效泛化到新的、未见过的场景和构图至关重要。以往的研究如ARO [40] 和 Sugarcrepe [8],强调了VLMs在这一领域的不足,主要关注于理解两个非常相似的标题之间的细粒度差异——一个人工编写的标题和自动生成的硬负例2标题,其中硬负例标题与原标题仅在目标、属性或两个目标之间的关系上有所不同。虽然可以通过基于规则的方法合成标题的硬负例,但为图像合成这样的硬负例则非常具有挑战性。
AIGC 先锋科技
2024/07/31
3340
利用大型语言模型和扩散模型大规模生成视觉最小变化数据,提升VLMs的细粒度理解能力 !
10月发布的5篇人工智能论文推荐
由于现有基准和指标的限制,在开放式环境中评估大型语言模型(llm)是一项具有挑战性的任务。为了克服这一挑战,本文引入了微调llm作为可扩展“法官”的概念,称为JudgeLM,这样可以在开放式基准场景中有效地评估llm。该方法结合了大量高质量的法官模型数据集,包括不同的种子任务、LLM生成的响应和GPT-4的详细判断,从而为LLM评估的未来研究奠定了基础。JudgeLM作为一种可扩展的语言模型法官,其一致性水平超过90%,超过了人与人之间的一致性。该模型在处理各种任务时也表现出适应性。该分析解决了LLM判断微调固有的偏差,并介绍了增强不同情况下模型一致性的方法,从而增强了JudgeLM的可靠性和灵活性。
deephub
2023/11/06
2740
10月发布的5篇人工智能论文推荐
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
我们今天总结下2024年5月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展,包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题。
deephub
2024/06/03
4320
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
扩散模型的多元化应用:药物发现、文本生成、时间序列预测等
AlphaFold3 是 DeepMind 开发的一款蛋白质结构预测软件,它在AlphaFold2的基础上进行了改进。其中最主要的一个改进就是引入了扩散模型,这使得扩散模型不仅仅可以应用于文生图,其实扩散模型早已经在各个领域中都又所发展,今天我们就来研究一下扩散模型的多元化应用。
deephub
2024/05/20
3600
扩散模型的多元化应用:药物发现、文本生成、时间序列预测等
DreamLLM:多功能多模态大型语言模型,你的DreamLLM~
今天为大家介绍西安交大,清华大学、华中科大联合MEGVII Technology的一篇关于多模态LLM学习框架的论文,名为DREAMLLM。
zenRRan
2023/09/26
1.8K0
DreamLLM:多功能多模态大型语言模型,你的DreamLLM~
思维的扩散,扩散语言模型中的链式思考推理
今天为大家介绍的是来自Lingpeng Kong团队的一篇论文。扩散模型在文本处理中获得了广泛关注,与传统的自回归模型相比,它们提供了许多潜在优势。作者在这项工作中探索了扩散模型与链式思考(Chain-of-Thought, CoT)的集成,CoT是一种在自回归语言模型中提高推理能力的成熟技术。
DrugAI
2024/03/26
2920
思维的扩散,扩散语言模型中的链式思考推理
Facebook最新语言模型XLM-R:多项任务刷新SOTA,超越单语BERT
Facebook AI近日发布一个名为XLM-R的新模型,使用100种语言、2.5 TB文本数据进行训练,在四项跨语言理解基准测试中取得了迄今最好的结果。
新智元
2019/11/12
1.1K0
Facebook最新语言模型XLM-R:多项任务刷新SOTA,超越单语BERT
Nat. Mach. Intell. | 综述:Transformer与基因组语言模型
今天为大家介绍的是来自加拿大多伦多大学Bo Wang团队的一篇论文。基于transformer深度学习架构的大型语言模型已经彻底改变了自然语言处理领域。受人类语言与基因组生物学代码之间类比关系的启发,研究人员已开始基于transformer及相关架构开发基因组语言模型(gLMs)。本综述探讨了transformer和语言模型在基因组学中的应用。作者调查了适合使用gLMs的基因组学开放性问题,并论证了对这些问题使用gLMs和transformer架构的理由。作者讨论了gLMs通过无监督预训练任务对基因组进行建模的潜力,特别关注零样本和少样本学习的能力。作者探索了transformer架构的优势和局限性,以及当前gLMs更广泛的优势和局限性。此外,基于目前的研究趋势,作者思考了超越transformer架构的基因组建模的未来。本综述可作为对transformer和语言模型在基因组数据领域感兴趣的计算生物学家和计算机科学家的指南。
DrugAI
2025/04/04
1760
Nat. Mach. Intell. | 综述:Transformer与基因组语言模型
CVPR 2024 | 可控文生图11篇汇总!基于扩散模型diffusion的text-to-image
3D资产生成正受到大量关注,受到最近文本引导的2D内容创建成功的启发,现有的文本到3D方法使用预训练文本到图像扩散模型来解决优化问题,或在合成数据上进行微调,这往往会导致没有背景的非真实感3D物体。
公众号机器学习与AI生成创作
2024/04/18
3K0
CVPR 2024 | 可控文生图11篇汇总!基于扩散模型diffusion的text-to-image
7 Papers | CoRL 2022最佳论文;语言模型生成自然界没有的蛋白质
机器之心 & ArXiv Weekly  参与:杜伟、楚航、罗若天 本周论文包括 FAIR 公布的最新研究,发现 ESM2 语言模型通过学习深层语法,就能生成天然蛋白质以外的新蛋白质,并可以编程生成复杂和模块化的蛋白质结构;机器人顶会 CoRL 2022 奖项公布。 目录 Language models generalize beyond natural proteins A high-level programming language for generative protein design DOC:
机器之心
2023/03/29
4290
7 Papers | CoRL 2022最佳论文;语言模型生成自然界没有的蛋白质
攻克图像「文本生成」难题,碾压同级扩散模型!两代TextDiffuser架构深度解析
近年来,文本生成图像领域取得了显著进展,尤其是基于扩散(Diffusion)的图像生成模型在细节层面上展现出逼真的效果。
新智元
2024/01/11
4870
攻克图像「文本生成」难题,碾压同级扩散模型!两代TextDiffuser架构深度解析
推荐阅读
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
3340
爆火Block Diffusion引发LLM架构变革?自回归+扩散模型完美结合 | ICLR 2025
1180
ICML 2024 | 扩散语言模型是多才多艺的蛋白质学习者
2980
何凯明入职 MIT 首次带队提出Diffusion Loss,借鉴扩散模型思想让自回归模型抛弃矢量量化 !
1.4K0
逐字生成非最优?试试逐「块」生成!Block Diffusion打通了自回归与扩散
1150
ICCV 2023 | 从14篇论文看如何 改进扩散模型diffusion ?
4.5K0
语言模型新范式:首个8B扩散大语言模型LLaDA发布,性能比肩LLaMA 3
1170
每周AI论文速递(240603-240607)
450
每周AI论文速递(240401-240405)
710
利用大型语言模型和扩散模型大规模生成视觉最小变化数据,提升VLMs的细粒度理解能力 !
3340
10月发布的5篇人工智能论文推荐
2740
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
4320
扩散模型的多元化应用:药物发现、文本生成、时间序列预测等
3600
DreamLLM:多功能多模态大型语言模型,你的DreamLLM~
1.8K0
思维的扩散,扩散语言模型中的链式思考推理
2920
Facebook最新语言模型XLM-R:多项任务刷新SOTA,超越单语BERT
1.1K0
Nat. Mach. Intell. | 综述:Transformer与基因组语言模型
1760
CVPR 2024 | 可控文生图11篇汇总!基于扩散模型diffusion的text-to-image
3K0
7 Papers | CoRL 2022最佳论文;语言模型生成自然界没有的蛋白质
4290
攻克图像「文本生成」难题,碾压同级扩散模型!两代TextDiffuser架构深度解析
4870
相关推荐
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档