Loading [MathJax]/jax/output/CommonHTML/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >陈丹琦团队提出最新MoE架构Lory

陈丹琦团队提出最新MoE架构Lory

zenRRan

发布于 2024-05-11 06:16:40

发布于 2024-05-11 06:16:40

3550

举报

文章被收录于专栏：深度学习自然语言处理深度学习自然语言处理

陈丹琦团队提出了一种名为 Lory 的新型混合专家（Mixture-of-Experts，简称 MoE）模型，专门用于自回归语言模型的预训练。以下是对文章内容的详细解读。

论文：Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training 链接：https://arxiv.org/pdf/2405.03133

摘要 (Abstract)

背景: 传统的 MoE 模型通过稀疏激活来扩大模型规模，但训练过程中路由网络的优化是一个挑战，因为它涉及到不可微分的离散目标。
SMEAR: 之前的研究提出了一种完全可微分的 MoE 架构 SMEAR，它在参数空间中软合并专家，但只在分类任务的微调中展示了有效性。
Lory: 本文提出的 Lory 是首个将此类完全可微分的 MoE 架构扩展到自回归语言模型预训练的方法。Lory 引入了两个关键技术：
1. 因果分段路由策略：在保持语言模型自回归特性的同时，实现了高效的专家合并操作。
2. 基于相似性的数据批处理方法：通过在训练实例中分组相似文档，鼓励专家专门化。

引言 (Introduction)

MoE 架构: 介绍了 MoE 架构及其在模型大小扩展中的作用，同时指出了训练路由网络的挑战。
现有解决方案: 讨论了现有的一些解决方案，如开关路由、top-k 专家选择路由和线性规划等。

预备知识 (Preliminaries)

稀疏激活 MoE: 解释了 Transformer 基础的 MoE 语言模型是如何工作的，以及如何通过路由网络计算路由权重。
通过专家合并的完全可微分 MoE 架构: 讨论了如何通过在参数空间中计算所有专家 FFN 的加权平均值来创建“合并 FFN”，从而实现 MoE 架构的完全可微分性。

Lory 方法

核心技术: Lory 的核心是专家合并，提出了因果分段路由方法和数据批处理策略，以实现高效计算和专家专门化。
符号表示: 文章定义了符号，如输入序列、路由网络、专家 FFN 参数等。
高效专家合并: 通过因果分段路由策略，减少了合并操作的数量，并通过停止梯度操作防止信息泄露。
数据批处理: 通过相似性基础的数据批处理技术，鼓励了专家对不同领域或主题的专门化。

实验 (Experiments)

模型设置: 描述了实验中使用的模型配置，包括不同数量的活跃参数和专家。
训练细节: 包括优化器选择、学习率调度、训练数据集和评估数据集。
主要结果: 展示了 Lory 模型在训练效率、语言建模和下游任务中的性能，并与密集模型进行了比较。

分析和消融研究 (Analysis and Ablation Studies)

因果分段路由的重要性: 通过比较因果分段路由和前缀路由，强调了每个分段提供强训练信号的重要性。
相似性基础数据批处理的重要性: 展示了使用相似性基础批处理方法对 MoE 模型性能提升的影响。
与现有 MoE 模型的比较: 将 Lory 与现有的 Expert Choice (EC) MoE 方法进行了比较。
专家利用和专门化: 分析了专家的利用情况和专门化程度，展示了在不同领域专家的路由权重。

相关工作 (Related Work)

MoE: 讨论了 MoE 模型的发展历程和挑战。
基于相似性的数据批处理: 提到了其他研究中使用类似数据批处理方法的工作。

结论 (Conclusion)

Lory 的贡献: 强调了 Lory 在自回归语言模型预训练中的潜力和优势。
未来工作: 提出了进一步扩展 Lory、结合不同级别的路由策略和开发高效解码方法的未来研究方向。

伦理声明 (Ethics Statement)

社会影响: 讨论了使用 Lory 方法训练的语言模型可能带来的潜在社会影响，包括错误信息的传播风险和隐私问题。

附录 (Appendix)

伪代码: 提供了因果分段路由策略的伪代码。
计算开销: 分析了 MoE 层与密集层相比的计算开销。
数据批处理细节: 描述了相似性基础数据批处理的具体实现方法。
模型配置: 列出了实验中使用的模型架构和大小。
7B 模型实验: 提供了 7B 模型的实验设置和结果。
专家专门化: 展示了 0.3B/8E 模型在不同领域上的专家路由权重。

文章通过实验验证了 Lory 模型在自回归语言模型预训练中的有效性，并展示了其在多个下游任务中的性能提升。此外，文章还探讨了专家的利用和专门化，以及如何通过不同的训练和推理策略进一步提高模型性能。最后，作者提出了未来工作的方向，并就使用 Lory 方法可能带来的伦理问题进行了讨论。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-05-07，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自深度学习自然语言处理微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

暂无评论

编辑精选文章

换一批

万字详解高可用架构设计

Go 开发者必备：Protocol Buffers 入门指南

10分钟带你彻底搞懂分布式链路跟踪

多租户的 4 种常用方案

亿级月活的社交 APP，陌陌如何做到 3 分钟定位故障？

60页PPT全解：DeepSeek系列论文技术要点整理

150B token从头训练，普林斯顿Meta发布完全可微MoE架构Lory

路由模型 meta token 架构

不同于大多数模型使用字母缩略起名，论文作者在脚注中解释道，Lory是一种羽毛有彩虹颜色的鹦鹉，和「软MoE」的精神非常相似。

新智元

2024/05/22

1300

150B token从头训练，普林斯顿Meta发布完全可微MoE架构Lory

无需额外训练，基于 Llama-2模型，通过 Model-GLUE 实现大规模语言模型的聚合与集成！

路由器模型性能 model 路由

大型语言模型（LLMs）在各种自然语言任务上展示了无与伦比的性能，涵盖了常识推理、问答以及甚至像数学和编程等专业化领域。LLM的有效性基于扩展定律，该定律提出，模型和训练数据规模的增加与模型性能的提升相关[27]。然而，随着LLM继续扩展，计算开销和数据需求也在增加。

AIGC 先锋科技

2024/11/08

1530

无需额外训练，基于 Llama-2模型，通过 Model-GLUE 实现大规模语言模型的聚合与集成！

稀疏性在机器学习中的发展趋势：MoE、稀疏注意力机制

每天给你送来NLP技术干货！ ---- 作者：唐工来源：https://zhuanlan.zhihu.com/p/463352552 编辑：李rumor Sparsity, ..., is another important algorithmic advance that can greatly improve efficiency. 稀疏性，是（神经架构搜索）之外另一个重要的算法进步，可以大大提高效率。The use of sparsity in models is ... very high po

zenRRan

2022/03/15

6.3K0

阿里云通义大模型新技术：MoE模型训练专家平衡的关键细节

负载均衡模型数据通信性能

本周，在阿里云通义千问 Qwen 团队提交的一篇论文中，研究人员发现了目前最热门的 MoE（混合专家模型）训练中存在的一个普遍关键问题，并提出一种全新的方法——通过轻量的通信将局部均衡放松为全局均衡，使得 MoE 模型的性能和专家特异性都得到了显著的提升。

机器之心

2025/02/03

1240

阿里云通义大模型新技术：MoE模型训练专家平衡的关键细节

一文深入了解DeepSeek-R1：模型架构

架构连接模型 DeepSeek 缓存

DeepSeek-R1 从其基础模型 DeepSeek-V3-Base 继承了 128K 上下文长度。最初，DeepSeek-V3 使用 4K 上下文长度进行预训练。然后，利用 YaRN 技术，两阶段上下文长度扩展首先将其增加到 32K，然后增加到 128K。

致Great

2025/02/14

1.6K0

一文深入了解DeepSeek-R1：模型架构

深度求索开源国内首个 MoE 大模型 | DeepSeekMoE：在专家混合语言模型中实现终极专家专业化

在大语言模型时代，混合专家模型（MoE）是一种很有前途的架构，用于在扩展模型参数时管理计算成本。然而，传统的 MoE 架构（如 GShard）会激活 N 位专家中的 top-K 专家，但在确保专家专业化（即每位专家获取的知识不重叠且重点突出）方面面临挑战。作为回应，研究者提出了 DeepSeekMoE 架构，以实现终极的专家专业化。它涉及两个主要战略：

叶庭云

2024/05/25

1.9K0

深度求索开源国内首个 MoE 大模型 | DeepSeekMoE：在专家混合语言模型中实现终极专家专业化

微软让MoE长出多个头，大幅提升专家激活率

路由论文模型数据 token

混合专家（MoE）是个好方法，支持着现在一些非常优秀的大模型，比如谷歌家的 Gemini 1.5 以及备受关注的 Mixtral 8x7B。

机器之心

2024/05/14

1210

微软让MoE长出多个头，大幅提升专家激活率

训不动Mixtral，要不试试LLaMA-MoE？

token 模型数据网络性能

随着各种各样增强版LLaMA的出现，Mixture-of-Expert(MoE)类模型越来越受大家关注。而LLaMA-MoE正是基于LLaMA系列和SlimPajama的MoE模型。它显著的一个好处是减小了模型大小，降低了训练代价。通过以下两个步骤进行构建：

zenRRan

2023/12/28

5380

训不动Mixtral，要不试试LLaMA-MoE？

3万字详细解析清华大学最新综述工作：大模型高效推理综述

内存优化工作量化模型

大模型由于其在各种任务中的出色表现而引起了广泛的关注。然而，大模型推理的大量计算和内存需求对其在资源受限场景的部署提出了挑战。业内一直在努力开发旨在提高大模型推理效率的技术。本文对现有的关于高效大模型推理的文献进行了全面的综述总结。首先分析了大模型推理效率低下的主要原因，即大模型参数规模、注意力计算操的二次复杂度作和自回归解码方法。然后，引入了一个全面的分类法，将现有优化工作划分为数据级别、模型级别和系统级别的优化。此外，本文还对关键子领域的代表性方法进行了对比实验，以及分析并给出一定的见解。最后，对相关工作进行总结，并对未来的研究方向进行了讨论。

zenRRan

2024/06/07

2.2K0

3万字详细解析清华大学最新综述工作：大模型高效推理综述

大模型系列之解读MoE

系统路由模型数据网络

Mixtral 8x7B 的推出，使我们开始更多地关注基于MoE 的大模型架构，那么，什么是MoE呢？

半吊子全栈工匠

2024/05/07

1.6K0

深度揭秘爆火MoE！GPT-4关键架构，成开源模型逆袭杀手锏

开源 gpt 架构模型数据

Mistral上周末丢出的磁力链接震惊了开源圈子，这个7B×8E的开源MoE大模型性能已经到达了LLaMA2 70B的级别！

新智元

2023/12/12

8470

深度揭秘爆火MoE！GPT-4关键架构，成开源模型逆袭杀手锏

国产五大模型之一MiniMax 使用国内首个MOE架构

神经网络并行存储架构腾讯云智能体开发平台机器学习

阿里被曝2024年面向AIGC的第二次大手笔投资来了——加注大模型赛道独角兽Minimax，领投至少6亿美元。

存内计算开发者

2024/05/21

2K0

哈工大/齐鲁工大/北京师范联合提出 PMoL：结合 LoRA 与 MoE 框架，实现高效偏好混合与降低训练成本的新方法！

路由器模型数据 LoRa 框架

目前，基于人类偏好的风格和道德价值观的预训练语言模型（RLHF，Christiano等人，2017；Ouyang等人，2022）是一种广泛使用的方法，用于将预训练语言模型与人类偏好对齐。这种方法需要使用人类标注的偏好数据来构建奖励模型，然后使用强化学习来训练预训练语言模型。

AIGC 先锋科技

2024/12/19

1990

哈工大/齐鲁工大/北京师范联合提出 PMoL：结合 LoRA 与 MoE 框架，实现高效偏好混合与降低训练成本的新方法！

大模型微调新范式：当LoRA遇见MoE

路由模型数据性能 LoRa

左侧：原始版本的LoRA，权重是稠密的，每个样本都会激活所有参数；右侧：与混合专家（MoE）框架结合的LoRA，每一层插入多个并行的LoRA权重（即MoE中的多个专家模型），路由模块（Router）输出每个专家的激活概率，以决定激活哪些LoRA模块。

zenRRan

2024/03/02

2.8K0

大模型微调新范式：当LoRA遇见MoE

如何高效训练 Transformer？微软亚研院开源TorchScale工具包

NLP技术深度学习

近期，微软亚洲研究院从深度学习基础理论出发，研发并推出了 TorchScale 开源工具包。TorchScale 工具包通过采用 DeepNet、Magneto 和 X-MoE 等最先进的建模技术，可以帮助研究和开发人员提高建模的通用性和整体性能，确保训练模型的稳定性及效率，并允许以不同的模型大小扩展 Transformer 网络。如今，在包括语音、自然语言处理（NLP）、计算机视觉（CV）、多模态模型和 AI for Science 等领域的研究中，Transformer 已经成为一种通用网络结构，加速

AI科技大本营

2023/02/23

5320

如何高效训练 Transformer？微软亚研院开源TorchScale工具包

Mixture-of-Experts (MoE) 经典论文一览

https 网络安全

最近接触到 Mixture-of-Experts (MoE) 这个概念，才发现这是一个已经有30多年历史、至今依然在被广泛应用的技术，所以读了相关的几篇经典论文，在这里总结一下。

beyondGuo

2022/12/01

2.3K0

Mixture-of-Experts (MoE) 经典论文一览

纯MLP在下游任务上欠佳？Meta AI等提出稀疏MLP，超越transformer

机器之心报道机器之心编辑部来自 Meta AI 和纽约州立大学布法罗分校的研究者分析了 MLP 在表达能力方面的局限性，并提出了在特征和输入（token）维度上带有混合专家系统（MoE）的稀疏激活 MLP。作为基于注意力模型的替代方案，纯 MLP 架构吸引了越来越多的关注。在 NLP 中，gMLP 等近期工作表明，纯 MLP 在语言建模方面可以达到与 transformer 相当的性能，但在下游任务中弱于 transformer。来自 Meta AI 和纽约州立大学布法罗分校的研究者分析了 MLP

机器之心

2022/04/18

5620

纯MLP在下游任务上欠佳？Meta AI等提出稀疏MLP，超越transformer

MoE训练论文解读之Megablocks：打破动态路由限制

路由论文模型软件硬件

GPT-4用了Mixture-of-Experts（MoE）架构，引起了广泛关注。然而，MoE训练并不是一项简单的任务，它面临着一些主要的挑战和难点：

NewBeeNLP

2023/11/08

2.1K0

MoE训练论文解读之Megablocks：打破动态路由限制

DeepSeek和月之暗面的论文撞车了！！

论文模型效率性能 DeepSeek

昨天下午，DeepSeek 发布了一篇新论文，提出了一种改进版的注意力机制 NSA；加上还有创始人兼 CEO 梁文锋亲自参与，一时之间吸引眼球无数，参阅报道《刚刚！DeepSeek团队丢出注意力新机制重磅论文》。

小白学视觉

2025/02/20

1330

DeepSeek和月之暗面的论文撞车了！！

Y-MoD:探索深度混合适应性，适用于多模式大语言模型！

路由路由器模型效率性能

近年来，自然语言处理（NLP）领域大型语言模型（LLMs）取得了巨大成功，这吸引了越来越多的关注，以将其扩展到视觉语言（VL）任务。尽管取得了进步，但最近的多模态大型语言模型（MLLMs）往往受到其昂贵的计算成本的批评。例如，现有 MLLMs 的推理速度仍远低于实际需求，例如每秒4.7个样本。受NLP进步的推动，最近的技术进步采用了混合专家（MoEs）来减少MLLMs的“激活参数”，从而在效率和性能之间实现了权衡。

AIGC 先锋科技

2024/11/06

1540

Y-MoD:探索深度混合适应性，适用于多模式大语言模型！

相关推荐

150B token从头训练，普林斯顿Meta发布完全可微MoE架构Lory

更多 >

LV.0

这个人很懒，什么都没有留下～

作者相关精选

换一批

目录

摘要 (Abstract)

引言 (Introduction)

预备知识 (Preliminaries)

Lory 方法

实验 (Experiments)

分析和消融研究 (Analysis and Ablation Studies)

相关工作 (Related Work)

结论 (Conclusion)

伦理声明 (Ethics Statement)

附录 (Appendix)

加入讨论

的问答专区 >

1产品KOL擅长5个领域

相关课程

一站式学习中心 >

腾讯云向量数据库-RAG七天入门训练营

向量数据库

腾讯云安灯

腾讯云WeData大数据开发与治理训练营

数据开发治理平台 WeData

腾讯云向量数据库快速上手训练营

向量数据库