前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >距离GPT-4更近一步?Mistral AI开源Mixtral MoE模型

距离GPT-4更近一步?Mistral AI开源Mixtral MoE模型

作者头像
OpenMMLab 官方账号
发布2023-12-13 14:16:01
5320
发布2023-12-13 14:16:01
举报
文章被收录于专栏:OpenMMLab

随着 ChatGPT 的发布,大模型进入快速发展期,2023 年 2 月 Llama 模型的开源更是为社区注入新的活力,推动相关技术快速进步。全球范围内的大模型开发呈现出井喷式增长。国产大模型诸如 ChatGLM、Baichuan、InternLM、Qwen 和 DeepSeek 等,以其卓越的性能和本土化优势,吸引了广泛的关注和讨论。在国际舞台上,Falcon、Vicuna、Mistral 等模型也同样赢得了全球开发者的青睐,开源模型的创新和潜力不断激发着社区的探索热情。

Mistral AI:简单点,做开源的方式简单点

在这场开源社区的"百模大战"中,Mistral AI 这家欧洲大模型初创企业,近期连续开源了 Mistral-7B 和 Mixtral-8x7B 两个模型,再次点燃了整个开源界的热情。与其他公司不同,Mistral AI 采取了截然不同的策略,他们低调行事,不搞铺天盖地的宣传,而是在短短两个月的时间里,直接在 X 上提供两个磁力链接,简单、直接、高效,没有多余的废话,这种做法在开源社区中独树一帜,更是彰显出他们对于技术的纯粹追求。

Mixtral 是什么模型?

Mixtral 8x7B 是 Mistral AI 全新发布的 MoE 模型,MoE 是 Mixture-of-Experts 的简称,具体的实现就是将 Transformer 中的 FFN 层换成 MoE FFN 层,其他部分保持不变。在训练过程中,Mixtral 8x7B 采用了 8 个专家协同工作,而在推理阶段,则仅需激活其中的 2 个专家。这种设计巧妙地平衡了模型的复杂度和推理成本,即使在拥有庞大模型参数的情况下,也能保证高效的推理性能,使得 MoE 模型在保持强大功能的同时,也具备了更优的实用性和经济性。

我们精心制作了 Llama 与 Mixtral 两个模型架构的对比图表,图中清晰展示了两者之间的主要差异所在——尤其是 FFN 层的设计。

在 Reddit 上的热烈讨论中,社区也普遍推测 GPT-4 可能也采用了 MoE(Mixture-of-Experts)架构。如果这一推断属实,MoE 架构或许成为开源模型性能接近 GPT-4 的桥梁。在过去的几年里,整个开源社区已经围绕 MoE 模型展开了深入的研究和探索,但鲜有性能优异的 MoE 开源模型问世。

图:https://zhuanlan.zhihu.com/p/399496787

拥有 8 个专家的 Mixtral 能力几何

根据 Mistral 官方的详细介绍,Mixtral-8x7B 模型拥有 32k 的上下文长度,并具备多语言处理能力,包括英语、法语、意大利语和西班牙语。它在数学问题和代码生成的任务上表现尤为出色。

Mixtral 8x7B 大幅超过前代模型 Mistral 7B,在部分能力上甚至追平或者超越 Llama-2-70B 模型,这无疑将会在开源社区引发一波新的关注。

图:https://mistral.ai/news/mixtral-of-experts/

红色点代表 Llama-2 的各个尺寸的模型性能

OpenCompass 团队在这个周末对 Mixtral 模型进行了全面评测。结果显示,Mixtral 在多个能力维度上,包括学科知识、数学、编程、阅读理解和常识推理等方面,都展现了卓越的性能。值得注意的是,Mixtral 的表现不仅在近期开源模型中脱颖而出,甚至与上个月发布的 DeepSeek-67B 和 Qwen-72B 等模型相比也显示出了强劲的竞争力。此外,Mixtral-8x7B 的实际激活参数量大约只有 12B 左右,这证明基于 MoE 的高效模型设计,也能实现了以较小的模型规模达到大型模型的性能水平,真正实现“以小博大”。

推理-微调-评测

极速上手 MoE 大模型

推理

OpenCompass 团队也在第一时间复现了 Mixtral 的模型架构,支持了 Mixtral 的模型推理。目前相关工具和性能已开源至 GitHub:

https://github.com/open-compass/MixtralKit

(文末点击阅读原文可直达)

未来,我们将会持续更新,提供不同推理后端的推理示例,补充微调脚本,介绍更多关于 MoE 的前沿成果。

微调

XTuner 团队也在第一时间支持了 Mixtral 模型的 QLoRA 和全量参数微调,QLoRA 微调只需一张 A100-80G,具体使用方法可参考 XTuner GitHub:

https://github.com/InternLM/xtuner/tree/main/xtuner/configs/mixtral

评测

同时,我们也在 OpenCompass 评测工具支持对 Mixtral-8x7B 在上百个开源数据集上进行一键式评测,欢迎访问 https://opencompass.org.cn/ 获取更多关于大模型能力评估的信息。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-12-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 OpenMMLab 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档