MOE这个架构就是可以很好的省钱~
就拿最新发布的deepseek-V3开源模型来说,它里面就用到了MOE架构。
在其MOE架构中,引入了路由专家 (Routed Experts) 和共享专家 (Shared Experts) 。主要是用来激活那些参数需要被更新。
路由专家中主要是用来选择参数进行激活。对于每个输入的token,只有一部分路由专家会被选中来参与计算。这个选择过程是由一个门控机制决定的,比如DeepSeekMoE中用的那种根据亲和度分数来选的Top-K方式。
而共享专家始终参与所有输入的处理。无论输入是什么,所有共享专家都会贡献它们的力量。
那么最后,他们基于这个架构,训练成本大幅下降。
DeepSeek V3的训练总共才用了不到280万个GPU小时,而Llama 3 405B却用了3080万GPU小时。用训练一个模型所花费的钱来说,训练一个DeepSeek V3只需要花费557.6万美元,相比之下,一个简单的7B Llama 3模型则需要花费76万美元。
从论文中的公布细节可以得到它的训练成本估算:
比起动辄几百亿人民币都训练不出来一个好用的大模型,DeepSeek V3的训练简直颠覆了大家的想象。
我们这里对比一下目前国外几个前沿大模型的价格,GPT-4每百万输入tokens,高达30$,而Claude3 Opus每百万输出tokens也要15$。从价格上来看,DeepSeek V3真的是太便宜的,便宜到我都怀疑这个公司还能不能赚到钱。
而如果要平衡性能和成本,它就成了DeepSeek官方绘图中唯一进入“最佳性价比”三角区的模型。其他像GPT-4o、Claude3.5等模型,价格都比较昂贵。
添加图片注释,不超过 140 字(可选)
总的来说,DeepSeek V3的发布,只用了较低的成本就可以超越现有的一些大模型,并且能够和GPT-4o和Claude 3.5相媲美,确实是一个杰出的工作。它内在的MOE架构,确实让人看到了更多遐想的空间。说不定以后大模型的训练也不一定要这么费钱,也能做出很好的效果出来
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。