《深度解析DeepSeek - R1新模型:AI推理能力的新突破》
最近AI领域又有了新的大事件。就像一阵强风席卷了平静的湖面,DeepSeek新模型再次震动全球AI圈。
回想去年12月,DeepSeek - V3已经在全球AI领域激起了巨大的浪花。它以极低的训练成本,达到了和GPT - 4o、Claude Sonnet 3.5等顶尖模型相当的性能,这就好比一个初出茅庐的选手,却能和久经沙场的名将打成平手,让业界大为震惊。
而这次的DeepSeek - R1模型更是不简单。它不仅延续了低成本的优势,在技术上还有很大的提升,并且还是一个开源模型。这就像一把双刃剑,一面是对自身技术实力的自信,另一面是对整个行业发展的积极推动。它仅仅用十分之一的成本就达到了GPT - o1级别的表现,于是,“DeepSeek接班OpenAI”这样的口号在业内不胫而走。
众多业内人士对它赞不绝口。比如前Meta AI工作人员、知名AI论文推特作者Elvis就强调,DeepSeek - R1的论文如同瑰宝一般,因为它探索了提升大语言模型推理能力的多种方法,还发现了其中更明确的涌现特性。另一位AI圈大V Yuchen Jin认为,DeepSeek - R1论文中提出的模型利用纯RL方法引导其自主学习和反思推理这一发现意义非凡。英伟达GEARLab项目负责人Jim Fan在推特中提到,DeepSeek - R1用通过硬编码规则计算出的真实奖励,避免使用任何RL容易破解的学习奖励模型,这使得模型产生了自我反思与探索行为的涌现,他甚至觉得DeepSeek做了OpenAI本应该做的开源之事。
在o1推出之后,推理强化成为了业界关注的焦点,就像一颗星星在夜空中吸引了所有人的目光。通常情况下,一个模型在训练时只会采用一种固定的训练方法来提升推理能力。然而,DeepSeek团队在R1的训练过程中却像是一个勇敢的探险家,一次性尝试了三种截然不同的技术路径:直接强化学习训练(R1 - Zero)、多阶段渐进训练(R1)和模型蒸馏,而且都取得了成功。这其中,多阶段渐进训练方法和模型蒸馏都蕴含着很多创新元素,对整个行业有着不可忽视的影响。
但在这三条路径中,最令人激动的当属直接强化学习这个路径,因为DeepSeek - R1是首个证明这一方法有效的模型。这就像在一片未知的海域发现了新的航线,为后来者开辟了新的道路。
那传统的训练AI推理能力的方法是什么样的呢?一般来说,就像是在搭建一座复杂的建筑,需要在SFT(监督微调)中加入大量的思维链(COT)范例,还要用例证和像过程奖励模型(PRM)这样复杂的神经网络奖励模型,就如同给建筑添砖加瓦,目的是让模型学会用思维链思考。有时候甚至还会加入蒙特卡洛树搜索(MCTS),这就好比在建筑中加入特殊的结构,让模型在多种可能中搜索最好的可能。
而DeepSeek - R1 - Zero却选择了一条前所未有的“纯”强化学习路径。这就像一个勇敢的行者,完全抛开了预设的思维链模板(Chain of Thought)和监督式微调(SFT),仅仅依靠简单的奖惩信号来优化模型行为。这就好比让一个天才儿童在没有任何范例和指导的情况下,纯粹通过不断尝试和获得反馈来学习解题。
DeepSeek - R1 - Zero只有一套非常简单的奖励系统来激发AI的推理能力,就像一个简单的游戏规则。这个规则主要有两条:
1.准确性奖励:准确性奖励模型评估响应是否正确,就像一个严格的裁判。对了就加分,错了扣分。评价方法也不复杂,例如在具有确定性结果的数学问题中,模型需要以指定格式(如和间)提供最终答案;对于编程问题,可以使用编译器根据预定义的测试用例生成反馈。
2.格式奖励:格式奖励模型强制要求模型将其思考过程置于和标签之间,没这么做就扣分,做了就加分。
为了准确观察模型在强化学习(RL)过程中的自然进展,DeepSeek就像一个谨慎的观察者,有意将系统提示词仅约束限制在这种结构格式上,来避免任何内容特定的偏见,例如强制让模型进行反思性推理或推广特定的问题解决策略。
简单来说,可以把它想象成老师出题,每道题让模型同时回答多次,然后用上面的奖惩规则给每个答案打分,根据追求高分、避免低分的逻辑更新模型。这个流程大概是这样的:输入问题 →模型生成多个答案 → 规则系统评分 → GRPO计算相对优势 → 更新模型。
这种直接训练方法带来了不少好处。首先是训练效率的提升,就像一辆汽车换上了新的引擎,整个过程可以在更短的时间内完成。其次是资源消耗的降低,由于省去了SFT和复杂的奖惩模型,计算资源的需求就像一个负重前行的人卸下了沉重的包袱,大幅减少。更重要的是,这种方法真的让模型学会了思考,而且是以一种类似“顿悟”的方式学会的。
最有说服力的或许是模型展现出的迁移学习能力。在完全不同的编程竞赛平台Codeforces上,R1 - Zero达到了超过96.3%人类选手的水平。这就像一个全能选手,在不同的赛场上都能取得优异的成绩。这种跨域表现表明,模型不是在死记硬背特定领域的解题技巧,而是掌握了某种普适的推理能力。
尽管R1 - Zero展现出了惊人的推理能力,但就像一个美丽的苹果里面可能有虫子一样,研究者们很快发现了一个严重的问题:它的思维过程往往难以被人类理解。
为了解决这个问题,研究团队开发了改进版本DeepSeek - R1。这就像给那个天才儿童配了一个沟通教练,教会他如何清晰地表达自己的想法。通过引入更传统的“cold - startdata”(冷启动数据)和多阶段训练流程,R1不仅保持了强大的推理能力,还学会了用人类易懂的方式表达思维过程。
然而,DeepSeek - R1 Zero的潜力似乎更大。它在AIME 2024测试中使用多数投票机制时达到的86.7%准确率,这个成绩甚至超过了OpenAI的o1 - 0912。这种“多次尝试会变得更准确”的特征,暗示R1 - Zero可能掌握了某种基础的推理框架,而不是简单地记忆解题模式。
论文数据显示,从MATH - 500到AIME,再到GSM8K,模型表现出稳定的跨域性能,特别是在需要创造性思维的复杂问题上。这种广谱性能提示R1 - Zero可能确实培养出了某种基础的推理能力,这与传统的特定任务优化模型形成鲜明对比。所以,虽然它口齿不清,但也许DeepSeek - R1 - Zero才是真正理解了推理的“天才”。
DeepSeek - R1的发布让圈内人的焦点都投向了纯强化学习方法,因为它就像打开了一扇通往新世界的大门,为AI进化开辟了一条新路径。
这个发现可能会改变我们对机器学习的认识:传统的AI训练方法可能一直在重复一个根本性的错误,我们太专注于让AI模仿人类的思维方式了,业界需要重新思考监督学习在AI发展中的角色。通过纯粹的强化学习,AI系统似乎能够发展出更原生的问题解决能力,而不是被限制在预设的解决方案框架内。
总之,DeepSeek - R1的出现,无论是它的技术创新,还是它带来的对传统训练方法的思考,都像是一颗投入AI领域湖泊的石子,激起的涟漪将会对整个AI领域的未来发展产生深远的影响。我们期待着在这条新的道路上,AI能够不断发展,走向更加智能、更加通用的未来。
四、deepseek创始团队介绍
2024年5月发布的DeepSeek-V2,是致使这家大模型公司破圈的关键一环。
其中最重要的创新是提出了一种新型注意力,在Transformer架构的基础上,用MLA(Multi-head Latent Attention)替代了传统的多头注意力,大幅减少了计算量和推理显存。
高华佐非常低调,目前只知道是北大物理系毕业。
另外,在“大模型创业六小强”之一阶跃星辰的专利信息中也可以看到这个名字,暂不确定是否是同一人。
而曾旺丁来自北邮,研究生导师是北邮人工智能与网络搜索教研中心主任张洪刚。
DeepSeek-V2工作中还涉及到了另一项关键成果——GRPO。
DeepSeek-V2发布前三个月,DeepSeek-Math问世,其中提出了GRPO(Group Relative Policy Optimization)。
GRPO是PPO的一种变体RL算法,放弃了critic模型,而是从群体得分中估算baseline,显著减少了训练资源的需求。
GRPO在圈内得到广泛关注,另一家国内开源大模型阿里Qwen 2.5的技术报告中也透露用到了GRPO。
DeepSeekMath有三位核心作者是在DeepSeek实习期间完成的工作。
核心作者之一邵智宏是清华交互式人工智能(CoAI)课题组博士生,师从黄民烈教授。
他的研究领域包括自然语言处理、深度学习,特别对如何能构建一个稳健且可扩展的AI系统感兴趣,这个AI系统能利用多样化的技能整合异构信息,并能准确回答各种复杂的自然语言问题。