加州大学伯克利分校的最新研究[1]表明,仅 1.5B 参数的小模型竟然在 AIME(美国数学竞赛) 上击败了 OpenAI 的 o1-preview!他们对 Deepseek-R1-Distilled-Qwen-1.5B 进行了强化学习(RL)训练,在 4 万道数学题 上优化了一个小模型 DeepScaleR。 整个训练仅消耗 3,800 小时 A100 GPU(约 4,500 美元),最终在 AIME 任务上超越 o1-preview! 你可能会问:o1-preview 是通用大模型,而 Qwen-1.5B 只是专门针对数学微调的,这样比较公平吗?但这正是关键!这项研究证明了小模型在垂直领域的巨大潜力——你不需要 DeepSeek 680B 这样的大模型,只需要一个高质量数据集 + 经济实惠的小模型,就能打造强大的专用 AI。
上图展示了 DeepScaleR 在 AIME 2024、Math 500 和 AMC 2023 任务上的表现,可以明显看到它在数学推理上的强悍能力。
那么如何训练一个小模型击败 OpenAI?
研究人员整合了多个数学竞赛的数据,共计 40000 道高质量数学题,包括
数据处理和优化流程:
gemini-1.5-pro-002
解析AoPS(Art of Problem Solving)
官方答案。sentence-transformers/all-MiniLM-L6-v2
进行 RAG 处理,避免数据泄漏。sympy
自动评估的问题,以提高训练效率。与 DeepSeek-R1 的采用的方法一致,研究人员采用结果奖励模型(Outcome Reward Model, ORM),而非过程奖励模型(Process Reward Model, PRM),以避免奖励欺骗(reward hacking)。
<think>
标签)最棒的是,他们开源了所有内容
尽在 github: https://github.com/agentica-project/deepscaler
技术报告原文,请点击下方原文访问!
这一研究表明,小模型完全可以在特定领域几百大模型,只需要正确的方法和高质量的数据集!未来,我们或许能看到更多专为特定任务优化的小型 LLM 诞生,大模型垂直领域落地不再是空谈!
[1]
最新研究: https://pretty-radio-b75.notion.site/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2