首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >MoE(Mixture-of-Experts)大模型架构的优势是什么?

MoE(Mixture-of-Experts)大模型架构的优势是什么?

原创
作者头像
算法一只狗
发布于 2025-01-01 08:45:32
发布于 2025-01-01 08:45:32
74603
代码可运行
举报
文章被收录于专栏:算法一只狗算法一只狗
运行总次数:3
代码可运行

MOE这个架构就是可以很好的省钱~

就拿最新发布的deepseek-V3开源模型来说,它里面就用到了MOE架构。

在其MOE架构中,引入了路由专家 (Routed Experts) 和共享专家 (Shared Experts) 。主要是用来激活那些参数需要被更新。

路由专家中主要是用来选择参数进行激活。对于每个输入的token,只有一部分路由专家会被选中来参与计算。这个选择过程是由一个门控机制决定的,比如DeepSeekMoE中用的那种根据亲和度分数来选的Top-K方式。

共享专家始终参与所有输入的处理。无论输入是什么,所有共享专家都会贡献它们的力量。

那么最后,他们基于这个架构,训练成本大幅下降。

DeepSeek V3的训练总共才用了不到280万个GPU小时,而Llama 3 405B却用了3080万GPU小时。用训练一个模型所花费的钱来说,训练一个DeepSeek V3只需要花费557.6万美元,相比之下,一个简单的7B Llama 3模型则需要花费76万美元。

从论文中的公布细节可以得到它的训练成本估算

  • 以 H800 GPU 小时为单位。H800 GPU 的租赁价格假定为每小时 2 美元。
  • 训练分为三个阶段:预训练、上下文扩展和后期训练:
  • 预训练:使用了 2664K(266.4 万)GPU 小时,成本约为 532.8 万美元。
  • 上下文扩展:使用了 119K(11.9 万)GPU 小时,成本约为 23.8 万美元。
  • 后期训练:使用了 5K GPU 小时,成本约为 1,000 美元。
  • 总成本:2788K(278.8 万)GPU 小时,总费用为 557.6 万美元。

比起动辄几百亿人民币都训练不出来一个好用的大模型,DeepSeek V3的训练简直颠覆了大家的想象。

我们这里对比一下目前国外几个前沿大模型的价格,GPT-4每百万输入tokens,高达30$,而Claude3 Opus每百万输出tokens也要15$。从价格上来看,DeepSeek V3真的是太便宜的,便宜到我都怀疑这个公司还能不能赚到钱。

而如果要平衡性能和成本,它就成了DeepSeek官方绘图中唯一进入“最佳性价比”三角区的模型。其他像GPT-4o、Claude3.5等模型,价格都比较昂贵。

添加图片注释,不超过 140 字(可选)

总的来说,DeepSeek V3的发布,只用了较低的成本就可以超越现有的一些大模型,并且能够和GPT-4o和Claude 3.5相媲美,确实是一个杰出的工作。它内在的MOE架构,确实让人看到了更多遐想的空间。说不定以后大模型的训练也不一定要这么费钱,也能做出很好的效果出来

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验