部署DeepSeek模型,进群交流最in玩法!
立即加群
发布
社区首页 >专栏 >对DeepSeek事件的复盘和展望

对DeepSeek事件的复盘和展望

作者头像
TVP官方团队
发布2025-02-03 16:22:03
发布2025-02-03 16:22:03
9290
举报
文章被收录于专栏:腾讯云TVP腾讯云TVP

作者简介:腾讯云TVP、北京交通大学计算机学院教授、计算机科学系主任、交通大数据与人工智能教育部重点实验室副主任。主要研究方向为多模态计算、网络数据挖掘、可信与对齐、AI Agent等。曾获中科院院长特别奖、ACM中国新星奖,作为负责人先后承担相关方向的国家自然科学基金重点项目、(首批)新一代人工智能重大项目课题、北京市杰出青年基金和国家级青年人才计划,第一/二作者论文7次获得中国计算机学会推荐国际会议的主会论文奖项,以第二完成人获得中国电子学会自然科学一等奖和北京市科学技术奖。

最近,DeepSeek彻底“出圈”了,而且是先“出国”,再“出圈”。 从技术创新、影响力、意义等各个方面,DeepSeek事件都是中国 AI 发展史上值得浓墨重彩的一笔。

DeepSeek送上的这份新年礼物,成了全国人民茶余饭后的热议话题。 过去一个多星期,我也被各种新闻和讨论淹没,迫切想从噪音中找到一些信号,因此试着做个复盘。

省时版

“出圈”的原因:强大、省钱、开源、中国造  性能不一定顶尖,但实实在在进入了第一梯队;资源受限逼出了极致的工程优化,最大化资源利用率;一线能力模型的开源将极大促进AI应用在2025年的爆发;DeepSeek的这次“出圈”打破了中国科技企业只能做“跟随者”的固有印象。

为什么这么省钱?MoE架构的动态负载均衡、MLA缓存的KV表征压缩、FP8混合精度训练、MTP的多token推断加速、DualPipe管道流水线并行和PTX通信内核定制

R1-Zero是技术探索,R1更像为了应用的产品  R1-Zero探索纯RL训练的潜力,R1面向应用交互性和安全性加入了蒸馏数据SFT和多种奖励loss。

R1“打脸”的两个技术点: (1) 只“看”结果,不“看”过程-只使用结果奖励,不监督思考过程;(2) 相信规则,不“迷信”奖励模型-抛弃基于模型的奖励,只使用准确性和格式的基于硬规则奖励

凭什么可以不“看”过程,不用奖励模型?  (1) GPRO训练通过候选答案间的相对比较实现隐式的过程奖励评估; (2) MoE架构可以更好地保留系统一能力,并通过动态门控机制实现了类似GPRO的隐式过程评估,减少了对过程监督和奖励模型的依赖。

R1如何继续提升? (1) 融合系统一和系统二,在RL中整合一般性逻辑数据和非推理数据,同时提升系统一基座和强化学习后训练;(2) 持续合成多样化、难度升级的CoT数据,实现推理模型的Scaling Law,推动模型能力的不断进化。

评价:自豪但别骄傲,不要“厚此薄彼”   DeepSeek的成果值得自豪,但并没有提升智能上限,也不是技术的颠覆性创新;OpenAI仍是技术领跑者,其技术探索和破风者的勇气值得尊敬。

影响:

-对DeepSeek的影响:巨大关注将吸引更多资源,人才流失是潜在挑战。

-对其他公司的影响:闭源公司面临压力,开源公司迎头赶上,云厂商赚钱、学习两不误,芯片厂商长期利好。

-对美国的影响:DeepSeek事件削弱了美国原有的资源和资本壁垒,可能威胁其在AI技术上的领导地位和科技霸权计划。

-对AI发展的影响:降低了训练和推断成本,将加速AI应用的推广;通过开源加速技术创新,将加速AI能力的提升。

正文

(全文约6000字,阅读需要20分钟,其中第二部分偏技术讨论)

一、 出圈的原因:强大、省钱、开源、中国造

强大

这几天对DeepSeek性能的讨论主要围绕它的R1推理模型。简单说:R1在性能上与OpenAI已发布的最强推理模型o1满血版相当。

更具体的:(1)DeepSeek-R1-Zero与OpenAI-o1-0912分数相当,(2)DeepSeek-R1与OpenAI-o1-1217分数相当,(3)Qwen-1.5B经过蒸馏的部分性能已与GPT-4o和Claude-3.5相当,而Qwen-32B经过蒸馏的性能远超QwQ-32B-Preview。

当然,这次不仅有榜单的分数,更有来自用户实实在在的使用体验。同时登顶苹果中美免费APP排行榜,以及2000万的日活,就是用脚投票的结果。

省钱

-低训练成本: DeepSeek-V3的训练成本为557.6万美元,不足GPT-4o和Llama 3.1的十分之一;R1的成本没有公开,但因为和V3共享了同样的base模型,假设训练成本的大头在预训练阶段,R1的训练成本应该也在600万美元左右。

需要做两点说明:(1)如V3报告中所说,557.6万美元只是最后一次训练的成本,不包括前期针对模型架构、参数和数据的风洞实验;(2) OpenAI和Meta的预训练成本相比几个月前也有大幅下降。

所以,实际的训练成本优势没有那么大

-低推断成本: DeepSeek-R1的输入token定价为0.55美元/百万,输出token为2.19美元/百万;而o1的输入token 为15美元/百万,输出token 为60美元/百万,相差30倍。

这也逼OpenAI对刚推出的o3-mini打了骨折价:输入1.10美元/百万token、输出4.40美元/百万token,比o1便宜93%。

开源

一如以往,DeepSeek-V3和DeepSeek-R1模型和相关工具链开源,采用MIT许可协议,支持免费商用、任意修改和衍生开发。

特别是R1的开源,对推理模型的生态发展至关重要,让更多人体验到了系统二思考的潜力。

而真正比肩一线闭源模型能力的模型开源,影响不单是Llama的开源盟主地位不保,更将极大促进AI应用在2025年的爆发。

中国造

过去,中国科技企业常被贴上“跟随者”的标签,而DeepSeek这次的出圈可能正在打破这一固有印象。

像梁文峰说的,中国的AI产业“不能永远做跟随者”。作为中国初创公司,DeepSeek的成功展示了中国在AI领域的创新能力

“我们创新缺的肯定不是资本,而是信心。”

走出拿来主义的舒适区,也许现在正是我们走到技术前沿、推动整个生态发展的机会。

二、技术讨论

1. 为什么这么省钱?

低训练成本颠覆行业认知。低推断成本则对AI应用的推广影响深远。

DeepSeek在算法、软硬件协同等方面都做了优化,实现了训练和推断成本的降低。大概有五点,其中前两点在V2中已经得到验证。

MoE架构:由Mistral首先成功应用于大模型训练。DeepSeek-V2和V3都采用MoE架构,其中6710亿参数的V3每个token训练时仅激活约6%的370亿参数,相比稠密模型计算量大幅下降。

MLA缓存机制:在DeepSeek-V2中首次提出。通过低秩分解压缩Key和Value的表示,减少注意力计算时的算力消耗和显存占用,提升模型在长序列训练和推断时的效率。

FP8混合精度训练:DeepSeek-V3首次在超大规模模型上验证了FP8低精度训练的有效性。模型参数和大多数计算密集型操作使用8位二进制浮点数表示,相比FP16节省约40%显存且提升约30%计算速度。

MTP多token预测:由Meta于2024年提出。 通过多个顺序模块同时预测多个未来 token,迫使模型学习Token之间的依赖关系,更好地理解上下文,在训练时提升数据利用效率,并支持推断时的加速。

Dual Pipe管道流水线并行:将每个计算块细分为多个组件,并重新安排执行顺序,使计算和通信在前后向过程中重叠进行;同时实现了PTX层面的更细粒度的指令优化,配合 Dual Pipe 实现高效的跨节点通信,提高计算通信比,最大化GPU利用率。

这些资源受限情况下的被迫创新,很容易联想到冷战技术封锁条件下前苏联在航天和军事领域的技术突破。“穷人家的孩子早当家”,这可能是美国最没有想到的。

2. R1-Zero是技术探索,R1更像为了应用的产品

DeepSeek R1系列主要包含两个模型:没有SFT直接RL的R1-Zero,和经过了两轮SFT、RL的R1。

首先,和AlphaGoZero不太一样,R1-Zero并不是完全从零开始,而是以一个系统一基座模型(V3-base)作为基础;Zero的意思指的是不需要人造(蒸馏/tree search/人工标注)CoT数据做冷启动。

而且,纯RL的方案很依赖系统一基座的能力,只有系统一模型已经达到一定能力阈值,才有可能让模型自主探索。这也符合我们对模型能力累积的理解:推理模型能力同时依赖预训练和后训练的scaling law。

纯RL是个很理想的方案,高富帅。相信很多开源工作都尝试过,没想到DeepSeek真的在超大规模模型上做出来了。只采用硬规则的奖励可能是它能实现的原因之一。

R1-Zero展现出的纯RL潜力让人兴奋。一方面降低了推理模型必须先蒸馏高质量数据的依赖,另一方面为模型自主、持续的进化提供了思路。

至于所谓的思维过程可读性差的缺点,也可能是潜在的优势。比如最近的连续思维链,在非自然语言空间进行的思考可以摆脱人类语言的约束,更高效地推理。报告中说language consistency loss对性能有负面影响,也验证了这一点。

和R1-Zero相比,R1更朴实、面向应用,像是个R1-Zero探索过程中对外输出的产品。比如,为了思维过程可读,加入了CoT数据进行SFT冷启动、加入了language consistency loss提升语言可读性;为了安全性,加入了preference 奖励模型。

下面的技术讨论主要围绕R1-Zero展开。

3. R1“打脸”的两个技术点

之前我们做o1-Coder、OpenRFT和System-2 Alignment时,花最多精力的地方是如何设计思考过程和执行树搜索,以及如何同步更新过程奖励模型PRM。然而,R1的训练既没监督思考过程,也没用复杂的奖励模型。

只“看”结果,不“看”过程

R1使用结果导向的强化学习训练,模型通过试错自主探索推理路径,没有关注思考的中间步骤。

R1技术报告的讨论中将没有监督思考过程的原因归纳为:难以定义思考步骤、难以评估思考步骤、模型容易reward hacking。而没有采用树搜索的原因是:相比围棋,语言模型具有更为庞大的搜索空间。

Next-token prediction也是通过简单的目标驱动复杂能力的涌现:为预测下一个token,需理解上下文语义、掌握领域知识、学习逻辑关系。而RL中,为了最大化结果奖励,需要自主发展出分步推理、自我验证、反思等能力。

相信规则,不“迷信”奖励模型

R1的训练过程中,特别是R1 Zero,完全抛弃了基于模型的奖励,只使用准确性和格式这种基于硬规则的奖励。

准确性奖励用于检查数学问题的答案是否正确,或代码是否通过测试;格式奖励用于检查模型是否将思维过程放置在特定的标记内。基于硬规则的奖励避免了对复杂奖励模型的依赖,保证了训练的稳定和透明。

这种“轻规则引导、重模型自主探索”的思路够简洁也够大胆:通过规则划定边界,赋予模型自由探索的空间,而不是用各种复杂奖励的条条框框约束它。

关注目标、只依靠可靠的规则,像极了我们的人生:设定可以安心立明的本真目标、遵循符合普世价值的基本准则,不要被过度的规划和外界多变的评价体系左右。

4. 凭什么可以不“看”过程、不用奖励模型?

首先,这是以基座模型达到一定能力为前提的。对于聪明人,只需要给他明确的答案做反馈、并且提供思考的机会,总会自己琢磨出中间的过程。

从技术看,不负责任地猜测,有两个点可能促成了这个效果。

GPRO训练的隐式(过程)奖励评估

DeepSeek-Math中提出了替代DPO的训练方法-GPRO,通过组内样本的比较来计算策略梯度。在GPRO训练中,模型生成多个候选答案,类似于在采样过程中生成多个可能的输出。每个答案对应的是模型在不同条件下对问题的不同推断结果。

基于GRPO训练的模型,在推断预测每个token时,可认为实现了类似采样后多数投票的结果。这里的投票是基于候选答案之间的相对比较。

通过候选答案之间的相对比较,一方面可能实现了对中间思考步骤的隐式评估,允许模型在没有外部监督的情况下自我优化;另一方面补充了基于规则的奖励评估,实现了某种自我评估校正。

MoE架构的多专家自适应选择

此前开源社区对o1的复现,没有特别关注MoE架构对推理模型训练的影响。

在OpenRFT的实验时,我们发现4o在需要复杂领域知识的任务上,推理效果比o1好,即知识的缺乏会影响推理模型的性能。

MoE的专家头专注于特定的任务或数据模式。在从系统一基座训练得到系统二推理模型的过程中,MoE有可能可以“记”住更多原来系统一的能力。

如果是这样,基于MoE架构的推理模型是不是可以依靠保留的知识和逻辑等能力,弥补过程监督的缺失?

此外,MoE 架构通过门控机制动态选择最相关的专家来处理输入数据。这种选择性激活使得模型能够根据输入的不同特点,自动调用最适合的专家进行处理,一定程度上也能实现类似GPRO的隐式过程评估效果,减少对过程监督和奖励模型的依赖。

过程监督和树搜索还有没有用?

R1系列的成功说明:不用过程监督、树搜索和复杂的奖励模型,也能训练出具有相当能力的推理模型。这无疑为推理模型的发展注入了强心剂。而至于OpenAI有没有用,已经不重要了。

但并不是说,过程监督、树搜索和奖励模型就没用了。比如专业领域的推理任务,如果有较为明确的思维模式和工作流,加入过程奖励和树搜索可以确定性地提高性能上限。

监督思考过程和树搜索肯定是有用的。R1只尝试了评估准确性的PRM,如推理上下文逻辑等可以有效地提升推理质量。

而通过搜索不同的推理路径,可以增加探索到高质量CoT的机会。R1的实验结果也显示了多数投票对于提升推理性能的显著影响。

也就是说,MCTS+PRM的方案没有错,但是可以泛化、通用的PRM目前还很难获得

通过显式地引导模型进行多步思考,除了可以解决已经发现的R1过度优化的reward hacking问题,还可以提高数据的利用率。

比如RL只使用结果监督的情况下,前一个阶段的SFT就不能蒸馏太多数据(R1最后只用了800K)。

原因是:如果模型在SFT阶段已经学了很多结果导向的数据,可能无法有效地在RL阶段从结果监督中进一步调整:模型可能表面上在装着思考,一开始生成没有用的想法,最后突然答对,其实只是在靠近所背的题。

5. R1如何继续提升?

相比之前从o1到o3的讨论,由于R1公开了实现方案,对它的讨论显得更实际一些。

R1和搜索的结合体验已经非常好了。接下来要提升的包括长上下文、任务泛化、多模态等具体能力。

下面,针对纯RL路线讨论两个粗线条的方向。

系统一+系统二

R1的方案虽然不如R1-Zero漂亮,但泛化能力的提升还是给未来RL路线的发展提供了思路。从数据配比上看,说明数学、代码之外的general logical data和non-reasoning data对于提升推理性能是有益的。

一个可能的方向是:把这些数据一起加入到RL的训练过程中。比如设置不同的专家头负责不同类型的数据。

OpenAI的Mark Chen在x上说预训练和推理是可以scale的两条线,Sam Altman也说2025年将融合GPT系列和o系列。

未来,需要同时提升系统一基座和强化后训练,并做好两个阶段的衔接和融合。

推理的Scaling Law

推理模型应该scale什么?首先,肯定不只是推断的时间。

对于模型规模,需要达到一定规模的系统一基座才有效,但继续增加模型规模的边际收益不高。

那就剩数据了。不是自然数据,而是合成的高质量CoT数据。不是供SFT用的蒸馏数据,而是供RL用的多样化的、难度持续提升的数据

覆盖不同领域和问题类型的多样化数据,可以避免模型过拟合某些模式。难度提升是为了逐步提升模型的推理能力,需要有不断产生的、更具挑战性的问题来补充RL的问题池,以保持模型能力的持续进化。

三、评价和影响

自豪,但别骄傲

DeepSeek取得的成果当然值得自豪,在有限的资源下做出具备如此性能的模型,并且无私开源。

但也要客观地评价。从能力上,V3和R1并没有提升智能上限,只是让具备还不错能力的模型更容易获取了。

从技术上,并不是颠覆式的创新。V3的低成本是有限资源下的极致工程优化,R1的纯RL、结果监督和基于规则的奖励也只是证明了“这样做也可以”。

以DeepSeek的资源,把单点做到极致已经很好了。未来能做到什么样,取决于接下来能拿到的资源。希望它在“技术理想主义”的路上越走越远。

不要“厚此薄彼”

OpenAI仍然是王者,仍然值得尊敬。

同为创业公司,OpenAI承担了前期方向和技术探索的风险和巨大成本,身为“破风者”的勇气就值得尊敬。

从能力上,R1可以在80%、或者90%的任务上可以用,但如AI4S等更具挑战性的10%任务,o1 pro和o3仍然优于R1。

此外,OpenAI 在“星际之门”项目中展现出的解决癌症、能源等全球性难题的宏大愿景,其中的社会责任感和技术使命也都值得中国公司学习。

对DeepSeek的影响

好的方面是受到的巨大关注可以吸引更多的资源。

模型开源并不会影响它的领先地位。工程能力、研究能力和团队文化才是DeepSeek最大的优势。

人才流失的风险是DeepSeek接下来要面对的。V3和R1的作者、特别是核心贡献者,现在肯定是各家大厂挖人的重点。

不过,DeepSeek的灵魂应该是梁文峰。他的角色不是Sam Altman,更像是Ilya--打个不恰当的比方—是假设宫斗成功后的Ilya。

同时,也会有更多优秀的人加入DeepSeek。从整个行业看,人才流动对技术扩散和发展是有益的。

对其他公司的影响

闭源模型公司,如OpenAI、Antheropic,压力山大。OpenAI立即推出了o1-mini,Antheropic的CEO最近的发言也明显表现出了焦虑。

开源模型公司,如Meta、阿里,迎头赶上。快速消化吸收DeepSeek的技术,改进自家模型,开闭源之争愈加激烈。

云厂商,如腾讯云、微软、亚马逊,赚钱、学习两不误。一方面积极部署最新的开源模型,另一方面,会不会也在能力持续提升的开源模型基础上研发自己的大模型?

芯片厂商,如英伟达,短期利空、长期利好。推断的算力需求会持续增加。和当年蒸汽机的技术发展一样,在工业革命级别的技术变革面前,能源利用率的提高会加速不同行业应用渗透、进而扩大对能源的需求。

对美国的影响

从上面的分析看,DeepSeek事件对AI相关的公司整体是受益的。

真正紧张的可能是美国政府。原本计划通过建立资本壁垒和芯片等资源壁垒,维持其AI技术的领先,从而巩固科技霸权,继续收割全世界。

现在,资源壁垒没了:少量、低性能的芯片一样能用;资本壁垒也没了:几百万美元就能训出世界领先水平的模型。

通过算法创新可以突破算力限制的成功经验,也给我们自己的未来AI技术发展带来了信心。

对AI发展的影响

加速AI应用的推广:训练和推断成本极大降低,使更多企业和开发者以能够负担得起的成本使用基本够用的AI能力。此外,R1报告中展现的在小模型上蒸馏的优秀性能也为端上的AI应用铺平了道路。

加速AI能力的提升:DeepSeek的成功让人看到了在粗放堆资源之外,AI发展还有一条“小而美”的技术创新的道路。开源则将打破少数企业的技术垄断,促使其他企业和科研机构加快技术创新和探索,加速技术迭代。

后记

杭州最近可太出彩了。三家科技创业公司相继“出圈”:游戏科学的黑神话悟空、DeepSeek的V3/R1和宇树科技的四足/人形机器人。

DeepSeek和宇树科技代表了通往AGI的虚拟世界智能和物理世界智能两个阶段,游戏科学代表的则是AGI实现后的人类最重要的活动和满足精神需求的载体。

AGI实现后,物质需求得到极大满足,人类将有机会追求需求金字塔的最顶端-精神需求和自我实现。此时,大部分人不再需要从事传统意义上的工作,而游戏的作用也不再是娱乐,将转变为帮助人类在数字化世界中实现自我价值和精神满足的平台。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 省时版
  • 一、 出圈的原因:强大、省钱、开源、中国造
  • 二、技术讨论
    • 1. 为什么这么省钱?
    • 2. R1-Zero是技术探索,R1更像为了应用的产品
    • 3. R1“打脸”的两个技术点
    • 4. 凭什么可以不“看”过程、不用奖励模型?
    • 5. R1如何继续提升?
  • 三、评价和影响
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档