首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >DeepSeek 开源的FlashMLA到底是什么?

DeepSeek 开源的FlashMLA到底是什么?

原创
作者头像
算法一只狗
发布2025-03-18 23:28:46
发布2025-03-18 23:28:46
2490
举报
文章被收录于专栏:算法一只狗算法一只狗

DeepSeek之前开源的FlashMLA,其github仓库代码已经来带了6000+的stars数量了,果然DeepSeek团队才是真正的OpenAI。

这次开源的技术,其实本质上就是在推理过程中优化了MLA。它其实总结下来就是两个关键的信息

  • 适配DeepSeek中自研的MLA,能够有效加速MLA的推理速度。

其实MLA技术一开始就是DeepSeek-V2中训练的一种方法。在原始的mutil-head attention中,本质上在计算每一次attention的时候,都需要存储k、v、q三个变量,这会导致整体的显存过大。

之前也有论文曾经对multi-head attention进行优化,提出了共享KV的主要两种方式。一种是MQA,上图的右边。一层的所有Head,共享同一个k,v来计算Attention。另一种叫GQA,上图的中间这个图,是平衡了MQA和MHA的一种折中的方法,不是每个Head一个KV,也不是所有Head共享一个KV,而是对所有Head分组然后再进行存储。

而DeepSeek-V2提出的MLA(Multi-Head Latent Attention),在KV缓存数量上略大于GQA(2.25组),但具备恢复完整MHA效果的能力。其推理效果不仅优于GQA,更在部分场景中超越传统MHA,成为兼顾性能与效率的解决方案。

  • 目前FlashMLA适配的是Hooper 架构GPU,更早的Ampere 架构以及RTX40 系用的 Ada 架构并不支持。

H800 SXM5硬件环境下,搭配CUDA 12.6,在内存受限条件下可实现3000 GB/s的带宽与580 TFLOPS的浮点性能,展现了极致的硬件适配优化。

从部署使用上看,其用法相当简单,只需要安装对应的依赖,然后像下面一样调用即可

DeepSeek团队在首日就开源了FlashMLA,相信在接下来的几天内,社区会有更多实践和应用落地。DeepSeek正用行动证明,他们不仅仅是开源的践行者,更是AI技术普惠化的推动者。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档