首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >60页PPT全解:DeepSeek系列论文技术要点整理

60页PPT全解:DeepSeek系列论文技术要点整理

原创
作者头像
languageX
修改2025-03-16 08:07:19
修改2025-03-16 08:07:19
5.3K1
举报
文章被收录于专栏:大语言模型大语言模型

DeepSeek-R1,让所有AI相关从业者,从年初卷到现在...

经过断断续续的整理,终于把DeepSeek系列论文的核心知识点汇总PPT完成差不多可以和大家分享了。虽然现在发布实在太晚,已经有铺天盖地的对deepseek技术解读文章和分享,但我依然希望将自己对DeepSeek V1到DeepSeek R1的理解与总结呈现给大家。

虽迟但到,希望这60页PPT对大家有所帮助。

MLA

MHA

GQA

MLA

MOE

MoEs和Transformer

GShard

Mixtral 8x7B

DeepSeekMoE

MTP

Blockwise Parallel Decoding

Better & Faster Large Language Models via MTP

DeepSeekV3-MTP

DualPipe

pipline parallel 流水线并行

Tensor parallel 张量并行

Expert parallel 专家并行

DualPipe 管道并行

FP8混合训练

GRPO

DeepSeek R1

参考:https://zhuanlan.zhihu.com/p/20844750193

DeepSeek-R1-Zero

DeepSeek-R1

DeepSeek-R1-Distill

在年初发布的DeepSeekR1,开源了671B的满血版以及一系列蒸馏模型后,很多企业开始紧锣密鼓的购买算力,私有化部署模型,在应用中接入ds,研究ds可以带来的价值;算法团队还要疯狂的学习以上技术点。

还没反应过来,不等大家休息,DeepSeek又来了开源周(2月24日至2月28日),开源6个核心技术项目,涵盖了从硬件优化到数据存储的全链路过程:

1.FlashMLA(2月24日):

  • 技术定位:针对NVIDIA Hopper GPU优化的多头潜在注意力(MLA)解码内核,专为处理可变长度序列设计。
  • 核心创新点
    • 动态资源分配,按序列长度分配算力。
    • 分页KV缓存,显存占用减少至1/4。
    • 低秩分解技术,支持边缘部署。
  • 性能亮点:算力峰值达580 TFLOPS,内存带宽3000 GB/s,延迟降低。

2.DeepEP(2月25日):

  • 技术定位:首个专为MoE(混合专家模型)设计的开源通信库,优化分布式训练与推理。
  • 核心创新点
    • 支持NVLink和RDMA硬件级优化。
    • FP8智能压缩,减少带宽需求。
    • 通信-计算重叠,基于钩子式方法。
  • 性能亮点:MoE模型训练性能提升,千亿模型训练成本降低。

3.DeepGEMM(2月26日):

  • 技术定位:面向Hopper GPU的高效FP8矩阵计算库,支持稠密模型和MoE模型的GEMM运算。
  • 核心创新点
    • Tensor Core深度适配,实现1350+ FP8 TFLOPS。
    • 显存优化,FP8精度下显存占用为FP16的1/4。
    • 通用性接口设计,兼容Transformer和MoE模型。
  • 性能亮点:算力利用率提升,训练迭代速度加快。

4.DualPipe和EPLB(2月27日):

  • DualPipe
    • 技术定位:双向管道并行算法,专为DeepSeek-V3/R1模型设计。
    • 核心创新点:双向计算-通信重叠,流水线气泡压缩,共享梯度传输。
    • 性能亮点:训练速度提升,硬件利用率提升。
  • EPLB
    • 技术定位:面向MoE模型的动态负载均衡工具。
    • 核心创新点:动态冗余专家分配,分层与全局负载均衡。
    • 性能亮点:节点间通信流量减少,训练成本降低。

5.Fire-Flyer File System (3FS)(2月28日):

  • 技术定位:AI专用分布式文件系统,优化数据密集型任务吞吐。
  • 核心创新点
    • 分解式架构,CRAQ协议强一致性。
    • 全局存储共享,支持KVCache显存优化。
  • 性能亮点:180节点集群聚合读取吞吐6.6 TiB/s,GraySort测试3.66 TiB/min。

6.Smallpond(2月28日):

  • 技术定位:基于3FS的轻量级PB级数据处理框架。
  • 核心创新点
    • DuckDB集成列式存储与向量化计算。
    • 弹性扩展,支持从单机到分布式集群。
  • 性能亮点:两阶段分区排序策略,PB级数据处理效率提升。

刚刚部署完的模型,又要学习新技术,看如何将这些加速工程技术点应用到推理框架节约算力成本。虽然DeepSeekR1的激活参数少,但是原模型占用空间大,而且以上工程优化技术未应用到推理框架,实际的推理成本是很高的。

最后聊聊腾讯混元和ima,确实好用至少用这么久就只出现了一次服务器繁忙,而且今天体验发现他已经有了自己的T1模型,速度比R1快不少,不知道是模型规模小还是背后算力分配多,希望T1也能出技术报告~哈哈

最后最后,个人或者企业在实际落地场景其实不用一味追求T1和R1(尤其是满血版),可以从需求复杂度,算力成本,实际效果,回复响应来选择最适合自己的大模型~

参考:

除了论文,参考很多大佬的技术博客也很多,当时没有记录链接,都是从ima来的...

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • MLA
    • MHA
    • GQA
    • MLA
  • MOE
    • MoEs和Transformer
    • GShard
    • Mixtral 8x7B
    • DeepSeekMoE
  • MTP
    • Blockwise Parallel Decoding
    • Better & Faster Large Language Models via MTP
    • DeepSeekV3-MTP
  • DualPipe
    • pipline parallel 流水线并行
    • Tensor parallel 张量并行
    • Expert parallel 专家并行
    • DualPipe 管道并行
  • FP8混合训练
  • GRPO
  • DeepSeek R1
    • DeepSeek-R1-Zero
    • DeepSeek-R1
    • DeepSeek-R1-Distill
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档