部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >DeepSeek 1.5B蒸馏小模型单项击败OpenAI o1-preview,我看到来了大模型垂域落地的可能!

DeepSeek 1.5B蒸馏小模型单项击败OpenAI o1-preview,我看到来了大模型垂域落地的可能!

作者头像
AgenticAI
发布2025-03-18 16:42:38
发布2025-03-18 16:42:38
1330
举报
文章被收录于专栏:AgenticAIAgenticAI

加州大学伯克利分校的最新研究[1]表明,仅 1.5B 参数的小模型竟然在 AIME(美国数学竞赛) 上击败了 OpenAI 的 o1-preview!他们对 Deepseek-R1-Distilled-Qwen-1.5B 进行了强化学习(RL)训练,在 4 万道数学题 上优化了一个小模型 DeepScaleR。 整个训练仅消耗 3,800 小时 A100 GPU(约 4,500 美元),最终在 AIME 任务上超越 o1-preview! 你可能会问:o1-preview 是通用大模型,而 Qwen-1.5B 只是专门针对数学微调的,这样比较公平吗?但这正是关键!这项研究证明了小模型在垂直领域的巨大潜力——你不需要 DeepSeek 680B 这样的大模型,只需要一个高质量数据集 + 经济实惠的小模型,就能打造强大的专用 AI

上图展示了 DeepScaleR 在 AIME 2024、Math 500 和 AMC 2023 任务上的表现,可以明显看到它在数学推理上的强悍能力。


那么如何训练一个小模型击败 OpenAI?

1. 数据集构建

研究人员整合了多个数学竞赛的数据,共计 40000 道高质量数学题,包括

  • AIME(1984-2023)和 AMC(2023 年前)
  • Omni-MATH 和 Still 等数据集,涵盖多个国家级和国际数学竞赛。

数据处理和优化流程:

  • ✅ 提取答案:用 gemini-1.5-pro-002解析AoPS(Art of Problem Solving)官方答案。
  • ✅ 去重检查:利用sentence-transformers/all-MiniLM-L6-v2进行 RAG 处理,避免数据泄漏。
  • ✅ 过滤不可评分题目:去除无法用sympy自动评估的问题,以提高训练效率。

2. 强化学习奖励机制

与 DeepSeek-R1 的采用的方法一致,研究人员采用结果奖励模型(Outcome Reward Model, ORM),而非过程奖励模型(Process Reward Model, PRM),以避免奖励欺骗(reward hacking)

  • 1 分:通过 LaTeX/Sympy 检测的正确答案
  • 0 分:答案错误或格式不符(例如缺少<think>标签)

3. 关键研究发现

  1. 小模型也能从 RL 训练中获益!
    • 传统观点认为 RL 只适用于大模型,但结合高质量 SFT 蒸馏,小模型同样可以通过 RL 提升推理能力。
    • 研究表明,RL 训练能将 AIME 任务的准确率从 28.9% 提升到 43.1%
  2. 单独的 SFT 或 RL 都不足,二者结合才是最佳方案
    • 仅靠 RL,Qwen-32B 在 AIME 任务上的表现只有 47%,而单独蒸馏就能达到 72.6%
    • 高质量 SFT + RL 扩展训练,才能真正释放 LLM 的推理能力。
  3. 迭代式扩展上下文窗口,更高效
    • 直接在 16K 上下文上训练 RL 无明显提升,逐步从 8K → 16K → 24K 更有效。
    • 这种方法先优化短上下文推理,再扩展到长上下文,让模型更高效地学习长程推理能力。 🚀

4. One more thing

最棒的是,他们开源了所有内容

  • 模型: DeepScaleR (基于 DeepSeek-R1-Distilled-Qwen-1.5B)
  • 训练代码:基于 字节跳动 Verl 库
  • 完整的数据集

尽在 github: https://github.com/agentica-project/deepscaler

技术报告原文,请点击下方原文访问!

5. 总结

这一研究表明,小模型完全可以在特定领域几百大模型,只需要正确的方法和高质量的数据集!未来,我们或许能看到更多专为特定任务优化的小型 LLM 诞生,大模型垂直领域落地不再是空谈!

参考资料

[1]

最新研究: https://pretty-radio-b75.notion.site/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AgenticAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 数据集构建
  • 2. 强化学习奖励机制
  • 3. 关键研究发现
  • 4. One more thing
  • 5. 总结
  • 参考资料
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档