Loading [MathJax]/jax/input/TeX/config.js
部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >距离GPT-4更近一步?Mistral AI开源Mixtral MoE模型

距离GPT-4更近一步?Mistral AI开源Mixtral MoE模型

作者头像
OpenMMLab 官方账号
发布于 2023-12-13 06:16:02
发布于 2023-12-13 06:16:02
632024
代码可运行
举报
文章被收录于专栏:OpenMMLabOpenMMLab
运行总次数:24
代码可运行

随着 ChatGPT 的发布,大模型进入快速发展期,2023 年 2 月 Llama 模型的开源更是为社区注入新的活力,推动相关技术快速进步。全球范围内的大模型开发呈现出井喷式增长。国产大模型诸如 ChatGLM、Baichuan、InternLM、Qwen 和 DeepSeek 等,以其卓越的性能和本土化优势,吸引了广泛的关注和讨论。在国际舞台上,Falcon、Vicuna、Mistral 等模型也同样赢得了全球开发者的青睐,开源模型的创新和潜力不断激发着社区的探索热情。

Mistral AI:简单点,做开源的方式简单点

在这场开源社区的"百模大战"中,Mistral AI 这家欧洲大模型初创企业,近期连续开源了 Mistral-7B 和 Mixtral-8x7B 两个模型,再次点燃了整个开源界的热情。与其他公司不同,Mistral AI 采取了截然不同的策略,他们低调行事,不搞铺天盖地的宣传,而是在短短两个月的时间里,直接在 X 上提供两个磁力链接,简单、直接、高效,没有多余的废话,这种做法在开源社区中独树一帜,更是彰显出他们对于技术的纯粹追求。

Mixtral 是什么模型?

Mixtral 8x7B 是 Mistral AI 全新发布的 MoE 模型,MoE 是 Mixture-of-Experts 的简称,具体的实现就是将 Transformer 中的 FFN 层换成 MoE FFN 层,其他部分保持不变。在训练过程中,Mixtral 8x7B 采用了 8 个专家协同工作,而在推理阶段,则仅需激活其中的 2 个专家。这种设计巧妙地平衡了模型的复杂度和推理成本,即使在拥有庞大模型参数的情况下,也能保证高效的推理性能,使得 MoE 模型在保持强大功能的同时,也具备了更优的实用性和经济性。

我们精心制作了 Llama 与 Mixtral 两个模型架构的对比图表,图中清晰展示了两者之间的主要差异所在——尤其是 FFN 层的设计。

在 Reddit 上的热烈讨论中,社区也普遍推测 GPT-4 可能也采用了 MoE(Mixture-of-Experts)架构。如果这一推断属实,MoE 架构或许成为开源模型性能接近 GPT-4 的桥梁。在过去的几年里,整个开源社区已经围绕 MoE 模型展开了深入的研究和探索,但鲜有性能优异的 MoE 开源模型问世。

图:https://zhuanlan.zhihu.com/p/399496787

拥有 8 个专家的 Mixtral 能力几何

根据 Mistral 官方的详细介绍,Mixtral-8x7B 模型拥有 32k 的上下文长度,并具备多语言处理能力,包括英语、法语、意大利语和西班牙语。它在数学问题和代码生成的任务上表现尤为出色。

Mixtral 8x7B 大幅超过前代模型 Mistral 7B,在部分能力上甚至追平或者超越 Llama-2-70B 模型,这无疑将会在开源社区引发一波新的关注。

图:https://mistral.ai/news/mixtral-of-experts/

红色点代表 Llama-2 的各个尺寸的模型性能

OpenCompass 团队在这个周末对 Mixtral 模型进行了全面评测。结果显示,Mixtral 在多个能力维度上,包括学科知识、数学、编程、阅读理解和常识推理等方面,都展现了卓越的性能。值得注意的是,Mixtral 的表现不仅在近期开源模型中脱颖而出,甚至与上个月发布的 DeepSeek-67B 和 Qwen-72B 等模型相比也显示出了强劲的竞争力。此外,Mixtral-8x7B 的实际激活参数量大约只有 12B 左右,这证明基于 MoE 的高效模型设计,也能实现了以较小的模型规模达到大型模型的性能水平,真正实现“以小博大”。

推理-微调-评测

极速上手 MoE 大模型

推理

OpenCompass 团队也在第一时间复现了 Mixtral 的模型架构,支持了 Mixtral 的模型推理。目前相关工具和性能已开源至 GitHub

https://github.com/open-compass/MixtralKit

(文末点击阅读原文可直达)

未来,我们将会持续更新,提供不同推理后端的推理示例,补充微调脚本,介绍更多关于 MoE 的前沿成果。

微调

XTuner 团队也在第一时间支持了 Mixtral 模型的 QLoRA 和全量参数微调,QLoRA 微调只需一张 A100-80G,具体使用方法可参考 XTuner GitHub:

https://github.com/InternLM/xtuner/tree/main/xtuner/configs/mixtral

评测

同时,我们也在 OpenCompass 评测工具支持对 Mixtral-8x7B 在上百个开源数据集上进行一键式评测,欢迎访问 https://opencompass.org.cn/ 获取更多关于大模型能力评估的信息。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-12-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 OpenMMLab 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
467亿参数MoE追平GPT-3.5!爆火开源Mixtral模型细节首公开,中杯逼近GPT-4
在大多数基准测试中,Mixtral的表现不仅优于Llama 2 70B,而且推理速度提高了整整6倍!
新智元
2023/12/12
5030
467亿参数MoE追平GPT-3.5!爆火开源Mixtral模型细节首公开,中杯逼近GPT-4
一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo
近日,探索通用人工智能(AGI)本质的 DeepSeek AI 公司开源了一款强大的混合专家 (MoE) 语言模型 DeepSeek-V2,主打训练成本更低、推理更加高效。
机器之心
2024/05/14
4180
一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo
开源大模型超越GPT-3.5!爆火MoE实测结果出炉,网友:OpenAI越来越没护城河了
首个开源MoE大模型Mixtral 8x7B,已经达到甚至超越了Llama 2 70B和GPT-3.5的水平。
量子位
2023/12/12
5200
开源大模型超越GPT-3.5!爆火MoE实测结果出炉,网友:OpenAI越来越没护城河了
Mixtral 8x7B论文终于来了:架构细节、参数量首次曝光
前段时间,那个爆火整个开源社区的 Mixtral 8x7B MoE 模型论文放出了。
机器之心
2024/01/11
4670
Mixtral 8x7B论文终于来了:架构细节、参数量首次曝光
一条磁力链爆全网,Mixtral 8x7B论文来了!碾压Llama 2 70B,每token仅需激活13B参数
紧接着,Mixtral 8x7B的技术细节随之公布,其表现不仅优于Llama 2 70B,而且推理速度提高了整整6倍。
新智元
2024/01/11
5240
一条磁力链爆全网,Mixtral 8x7B论文来了!碾压Llama 2 70B,每token仅需激活13B参数
系统性介绍MoE模型架构,以及在如今大模型方向的发展现状
知乎:Verlocksss 编辑:马景锐 链接:https://zhuanlan.zhihu.com/p/675216281
zenRRan
2024/01/11
7.9K0
系统性介绍MoE模型架构,以及在如今大模型方向的发展现状
首个开源MoE大模型发布!7Bx8个专家,离GPT-4最近的一集
MoE架构全称专家混合(Mixture-of-Experts),也就是传闻中GPT-4采用的方案,可以说这是开源大模型离GPT-4最近的一集了。
量子位
2023/12/12
3300
首个开源MoE大模型发布!7Bx8个专家,离GPT-4最近的一集
Mistral AI vs. Meta:顶级开源LLM比较
本文将比较Mistral 7B vs Llama 2 7B and Mixtral 8x7B vs Llama 2 70B
deephub
2024/01/29
4420
Mistral AI vs. Meta:顶级开源LLM比较
8x7B开源MoE击败Llama 2逼近GPT-4!欧版OpenAI震惊AI界,22人公司半年估值20亿
87GB的种子,8x7B的MoE架构,看起来就像一款mini版「开源GPT-4」!
新智元
2023/12/12
5010
8x7B开源MoE击败Llama 2逼近GPT-4!欧版OpenAI震惊AI界,22人公司半年估值20亿
MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」
MoE(Mixture of Experts),又称「混合专家」,本质是一种模块化的稀疏激活。怎么理解?
AI科技评论
2024/06/03
9180
MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」
深度求索开源国内首个 MoE 大模型 | DeepSeekMoE:在专家混合语言模型中实现终极专家专业化
在大语言模型时代,混合专家模型(MoE)是一种很有前途的架构,用于在扩展模型参数时管理计算成本。然而,传统的 MoE 架构(如 GShard)会激活 N 位专家中的 top-K 专家,但在确保专家专业化(即每位专家获取的知识不重叠且重点突出)方面面临挑战。作为回应,研究者提出了 DeepSeekMoE 架构,以实现终极的专家专业化。它涉及两个主要战略:
叶庭云
2024/05/25
1.8K0
深度求索开源国内首个 MoE 大模型 | DeepSeekMoE:在专家混合语言模型中实现终极专家专业化
使用MergeKit创建自己的专家混合模型:将多个模型组合成单个MoE
由于Mixtral的发布,专家混合(MoE)架构在最近几个月变得流行起来。虽然Mixtral和其他MoE架构是从头开始预训练的,但最近出现了另一种创建MoE的方法:Arcee的MergeKit库可以通过集成几个预训练模型来创建moe。这些人通常被称为frankenMoEs或MoErges,以区别于预先训练的MoEs。
deephub
2024/04/01
4761
使用MergeKit创建自己的专家混合模型:将多个模型组合成单个MoE
150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory
不同于大多数模型使用字母缩略起名,论文作者在脚注中解释道,Lory是一种羽毛有彩虹颜色的鹦鹉,和「软MoE」的精神非常相似。
新智元
2024/05/22
1270
150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory
全球最大开源模型再刷爆纪录!4800亿参数MoE击败Llama 3、Mixtral
就在刚刚,拥有128位专家和4800亿参数的Arctic,成功登上了迄今最大开源MoE模型的宝座。
新智元
2024/04/26
1990
全球最大开源模型再刷爆纪录!4800亿参数MoE击败Llama 3、Mixtral
大模型系列之解读MoE
Mixtral 8x7B 的推出, 使我们开始更多地关注 基于MoE 的大模型架构, 那么,什么是MoE呢?
半吊子全栈工匠
2024/05/07
1.5K0
大模型系列之解读MoE
Firefly:开源大模型训练工具助力AI技术进步,让你轻松训练各种主流大模型!
近年来,随着人工智能技术的快速发展,大模型训练 成为了 AI领域 的热门话题之一。
Python兴趣圈
2024/03/18
7440
Firefly:开源大模型训练工具助力AI技术进步,让你轻松训练各种主流大模型!
Mistral AI新模型对标GPT-4,不开源且与微软合作,网友:忘了初心
周一晚间,Mistral AI 正式发布了「旗舰级」大模型 Mistral Large。与此前的一系列模型不同,这次 Mistral AI 发布的版本性能更强,体量更大,直接对标 OpenAI 的 GPT-4。而新模型的出现,也伴随着公司大方向的一次转型。
机器之心
2024/02/28
5400
Mistral AI新模型对标GPT-4,不开源且与微软合作,网友:忘了初心
「大模型变小」成年度大趋势!1月AI四大研究精彩亮点超长总结,模型合并MoE方法是主流​
AI研究员Sebastian Raschka表示,「纵观2024年的开源和研究工作,我们似乎正在努力使大模型变得更好、更小,而不一定要扩大它们的规模」。
新智元
2024/02/26
5050
「大模型变小」成年度大趋势!1月AI四大研究精彩亮点超长总结,模型合并MoE方法是主流​
20B量级大模型性能媲美Llama2-70B!完全开源,从基座到工具全安排明白了
9月20日,上海人工智能实验室(上海AI实验室)与商汤科技联合香港中文大学和复旦大学,正式开源了200亿参数的InternLM-20B模型。
新智元
2023/09/22
4960
20B量级大模型性能媲美Llama2-70B!完全开源,从基座到工具全安排明白了
全球开源新王Qwen2-72B诞生,碾压Llama3-70B击败国产闭源模型!AI圈大佬转疯了
坐等许久,Qwen2-72B终于发布了!这个模型一出世,直接杀进开源LLM排行榜第一,完全碾压美国最强的Llama3-70B。
新智元
2024/06/17
5920
全球开源新王Qwen2-72B诞生,碾压Llama3-70B击败国产闭源模型!AI圈大佬转疯了
推荐阅读
467亿参数MoE追平GPT-3.5!爆火开源Mixtral模型细节首公开,中杯逼近GPT-4
5030
一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo
4180
开源大模型超越GPT-3.5!爆火MoE实测结果出炉,网友:OpenAI越来越没护城河了
5200
Mixtral 8x7B论文终于来了:架构细节、参数量首次曝光
4670
一条磁力链爆全网,Mixtral 8x7B论文来了!碾压Llama 2 70B,每token仅需激活13B参数
5240
系统性介绍MoE模型架构,以及在如今大模型方向的发展现状
7.9K0
首个开源MoE大模型发布!7Bx8个专家,离GPT-4最近的一集
3300
Mistral AI vs. Meta:顶级开源LLM比较
4420
8x7B开源MoE击败Llama 2逼近GPT-4!欧版OpenAI震惊AI界,22人公司半年估值20亿
5010
MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」
9180
深度求索开源国内首个 MoE 大模型 | DeepSeekMoE:在专家混合语言模型中实现终极专家专业化
1.8K0
使用MergeKit创建自己的专家混合模型:将多个模型组合成单个MoE
4761
150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory
1270
全球最大开源模型再刷爆纪录!4800亿参数MoE击败Llama 3、Mixtral
1990
大模型系列之解读MoE
1.5K0
Firefly:开源大模型训练工具助力AI技术进步,让你轻松训练各种主流大模型!
7440
Mistral AI新模型对标GPT-4,不开源且与微软合作,网友:忘了初心
5400
「大模型变小」成年度大趋势!1月AI四大研究精彩亮点超长总结,模型合并MoE方法是主流​
5050
20B量级大模型性能媲美Llama2-70B!完全开源,从基座到工具全安排明白了
4960
全球开源新王Qwen2-72B诞生,碾压Llama3-70B击败国产闭源模型!AI圈大佬转疯了
5920
相关推荐
467亿参数MoE追平GPT-3.5!爆火开源Mixtral模型细节首公开,中杯逼近GPT-4
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验