
2026年4月24日,DeepSeek正式发布V4系列预览版——这不是一次简单的参数堆叠,而是一场关于"效率、规模、长文本"三者重新平衡的工程革命。
DeepSeek V4系列一次性推出两款MoE(混合专家)模型,全部原生支持100万Token超长上下文:
模型 | 总参数量 | 激活参数 | 预训练数据 | 上下文长度 |
|---|---|---|---|---|
V4-Pro | 1.6万亿 (1.6T) | 490亿 (49B) | 33T Token | 1M |
V4-Flash | 2840亿 (284B) | 130亿 (13B) | 32T Token | 1M |
开源协议:MIT,代码与权重完全开放。
关键定位:用更大的参数池承载更多知识,用更稀疏的激活控制推理成本,用全系标配的百万上下文把长文本处理从"高端功能"变成"基础设施"。
官方直言:从现在开始,一百万上下文将是DeepSeek所有官方服务的标配。
这是V4最核心的创新。传统全量自注意力在百万Token场景下计算量呈二次方爆炸,V4通过全新的分层注意力架构解决了这个问题:
CSA(Compressed Sparse Attention,压缩稀疏注意力)
HCA(Heavily Compressed Attention,重度压缩注意力)
效果惊人:
这意味着什么?同样一张显卡,以前只能跑32K上下文,现在可以稳定跑1M上下文。长时序任务从"理论上可行"变成了"工程上可落地"。

超大规模MoE模型的训练稳定性一直是业界难题——模型越大,梯度传播越容易出问题。
V4引入了Manifold-Constrained Hyper-Connections(流形约束超连接):
这项技术源自DeepSeek此前论文中提出的Hyper-Connections思想的进一步演进。
V4在训练优化器上选择了Muon(而非主流的AdamW):
预训练阶段使用32K上下文,后续扩展至1M——这种"先短后长"的上下文扩展策略也是V4能高效达成百万上下文的关键工程选择之一。
V4的MoE架构采用了被称为Mega内核的超大规模专家设计:
参数 | V4-Pro | V4-Flash |
|---|---|---|
每层专家数 | 384个 | 较少(未公开精确值) |
每次激活专家数 | 6个 | 较少 |
注意力机制 | DSA2(融合DSA+NSA) | 同左 |
DSA2是DeepSeek第二代稀疏注意力机制,融合了:
两种稀疏注意力机制的融合方案,让长上下文效率达到新高度。
V4的MoE门控网络比前代更加稀疏:
打个比方:V4像一个拥有1600本专业书的图书馆,但每次你提问,它只需要翻阅其中6本就能给出高质量答案。知识广度和推理效率兼得。
V4引入了一项创新性的条件记忆模块,这是对传统RAG(检索增强生成)思路的架构级整合:

架构说明:用户 Query 进入触发门控模块,通过关键词匹配、语义相似度或场景标签三种方式激活相关记忆块,经跨注意力融合后输出高质量响应。
三大能力:
三类触发规则:
优势:减少昂贵的动态知识重建开销,同时支持持久化存储、跨会话/跨项目复用。
基准测试 | V4-Pro-Max | 对比竞品 |
|---|---|---|
Apex Shortlist | 90.2% | 领先 |
Codeforces Rating | 3206 | 超越Gemini-3.1-Pro & Claude Opus-4.6 |
IMO-AnswerBench | 89.8% | 顶尖水平 |
HMMT 2026 | 95.2% | 行业领先 |
SimpleQA-Verified | 57.9% | 略逊于Gemini-3.1-Pro(75.6%),但领先所有开源模型约20个百分点 |
基准测试 | V4-Pro-Max | 说明 |
|---|---|---|
LiveCodeBench Pass@1 | 93.5% | 刷新纪录 |
SWE-bench Verified | 80.6% | 与Claude/GPT持平 |
Terminal Bench 2.0 | 67.9% | Agent任务突出 |
Toolathlon | 51.8% | 工具调用优势明显 |
内部R&D基准 Pass Rate | 67% | Sonnet 4.5为47%,Opus 4.6 Thinking为80% |
基准测试 | 得分 |
|---|---|
MRCR(百万Token长上下文检索) | 83.5% |
V4提供灵活的推理强度选择:
模式 | 适用场景 | 特点 |
|---|---|---|
Non-Think | 日常对话、轻量任务 | 即时响应,最快速度 |
Think High | 专业问题、深度推理 | 思考时间长,质量更高 |
Think Max | 科研、复杂编程、Agent任务 | 最大思考强度,高峰期可能排队 |
API调用支持 reasoning_effort 参数设置思考强度(high/max)。对于复杂Agent场景,官方建议使用思考模式 + max强度。
V4采用两阶段后训练策略:
第一阶段:领域专家培养
第二阶段:统一模型整合
预训练基于32T+高质量Token,采用GRPO及KL散度修正进行强化学习微调。
V4首发即支持华为昇腾NPU部署:
国产AI芯片厂商寒武纪宣布:
DeepSeek V4不是单一维度的参数竞赛,而是一次"参数规模 × 激活效率 × 上下文长度"三者重新平衡的系统性工程:
正如官方技术报告标题所言:Towards Highly Efficient Million-Token Context Intelligence(迈向高效百万令牌上下文智能)。这不仅是DeepSeek的一小步,更是整个开源AI社区向"高效长上下文"时代跨越的一大步。
— 完 —