Loading [MathJax]/jax/input/TeX/config.js
部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >你敢信!LoRA也能训练出强大的推理模型——Tina让小模型“智商爆表“

你敢信!LoRA也能训练出强大的推理模型——Tina让小模型“智商爆表“

作者头像
致Great
发布于 2025-04-25 01:32:46
发布于 2025-04-25 01:32:46
1820
举报
文章被收录于专栏:自然语言处理自然语言处理

Tina: 低成本高效的推理能力小型语言模型

在大模型时代,人们常认为只有参数量庞大的语言模型才能具备强大的推理能力。

然而,一项名为Tina(Tiny Reasoning Models via LoRA)的研究颠覆了这一观念:通过巧妙运用LoRA技术,研究团队用不到10美元的训练成本,让一个仅有1.5B参数的小模型在推理能力上媲美甚至超越了同类全参数训练的最先进模型!

这一惊人成果不禁让人发问:推理能力的提升真的需要消耗大量计算资源吗?

Tina模型的核心技术

小型基础模型的选择

Tina研究选择了DeepSeek-R1-Distill-Qwen-1.5B作为基础模型。这一选择不同于许多聚焦于大模型的研究,而是着眼于一个蒸馏得到的小型模型。这个模型虽然参数量小,但通过特定的系列(DeepSeek/Qwen)和蒸馏过程,具有较强的初始推理能力。

这使得研究人员能够在较低的算力成本下,更严格地评估强化学习带来的推理能力提升。

LoRA技术在强化学习中的应用

Tina模型的核心创新在于在强化学习(RL)过程中应用低秩适应(LoRA)技术。 LoRA通过训练参数更新的低秩分解,仅需训练少量新参数,从而实现参数高效的后训练。这种方法不仅计算效率高,还具有模块化的优势,可以通过训练低秩分解的参数更新来切换推理行为,而无需维护多个完整的模型副本。

高效训练流程的设计

研究团队设计了一个高效的训练流程,使用公开的推理模型数据集和设置进行强化学习。所有Tina模型和基线模型都采用相同的基础模型检查点,并使用默认的开源权重。

训练代码基于OpenR1,这是一个完全开源的DeepSeekR1的复现版本,结合了AccelerateTrl库以及DeepSpeed ZeRO优化。

为了实现低成本,研究限制了硬件使用,仅使用两块NVIDIA L40S GPU。通过在两块GPU上同时运行强化学习训练过程和vLLM(用于更快的样本生成),显著减少了硬件需求。训练预算控制在每个完整实验运行不超过100美元,实际支出远低于这个上限。

实验验证与结果分析

基线模型重评估

为确保公平和可靠的比较,研究者对现有的SOTA推理模型进行了重新评估,使用统一的评估框架和设置。所有基线模型均使用lighteval框架结合vLLM推理引擎进行评估,保持硬件配置和推理参数一致。这为后续Tina模型的评估提供了可靠的参考基准。

Tina模型性能评估

在五个不同的数据集上训练了五种Tina模型,并在六个推理任务上评估它们的性能。结果显示,Tina模型在各个任务上的表现与对应的全参数训练的基线模型相比,不仅具有竞争力,而且在某些情况下还超过了基线模型。例如,Tina-Open-RS2模型达到了最高的平均性能50.60%。更令人惊讶的是,最佳Tina模型在AIME24测试集上实现了43.33%的通过率,与仅使用全参数微调的基线模型相比提高了超过20%。

消融研究的关键发现

研究通过改变训练数据集、学习率、LoRA秩和强化学习算法等单一因素,探究了影响Tina模型性能和效率的关键设计选择和超参数。

  1. 数据集的影响:使用较小但高质量的数据集(如Tina-Open-RS,仅7k样本)训练的模型表现优于使用更大数据集训练的模型。
  2. 学习率的敏感性:在Tina-LIMR配置下,学习率为1e-6时,模型表现最佳。
  3. LoRA秩的影响:测试了不同LoRA秩(4、8、16、32、64),发现秩为16时性能最佳。
  4. 强化学习算法的比较:比较了GRPO和Dr.GRPO算法,发现Dr.GRPO在训练早期就能达到较好的性能。
训练阶段分析

分析LoRA基于RL的训练过程,探究其高效性的原因,研究者观察了训练过程中的准确率奖励、格式奖励、完成长度等指标的变化。发现了一个明显的训练阶段转换点,格式奖励和完成长度在这一点附近出现峰值或不稳定,而准确率奖励则没有明显的转折点。

最佳性能检查点通常出现在格式奖励开始下降之前,这表明LoRA在格式适应方面非常高效,但过度优化格式可能会损害推理性能。这一发现支持了研究者提出的"快速格式适应"假设:LoRA的有效性和效率源于其能够快速适应强化学习奖励的推理格式,同时保留基础模型的底层知识。

惊人的成本效益

Tina模型的一个最显著特点是其极高的成本效益。 最佳Tina模型的训练成本仅为9美元,相比于传统强化学习方法节省了约260倍的成本。这一惊人的成本降低使得强化学习推理模型的开发更加普及和可访问。

总实验成本为526美元,这包括了所有Tina变体的训练和评估,以及基线模型的重评估。

这意味着即使是资源有限的研究团队或个人开发者,也能参与到高级推理模型的开发中来。

我们看到作者在很多R1复现方案上做了对应训练,并发布了Lora权重

值得反思的事情

我们看到这种训练成本确实比较低,之前我们也尝过“Lora”或者‘Qlora“的算力甜头,好像基座模型很少采用Lora训练方式去作为基础训练技术,可能作为垂域任务的拟合技术比较合适。针对Tina有一些反思的点是:

  • 规模扩展的不确定性 - 研究仅验证了1.5B参数模型上的效果,尚不清楚这种方法能否有效扩展到10B或更大参数模型,以及规模增长是否会导致性能与成本效益之间的权衡发生变化。
  • 领域局限性 - 当前研究主要集中在数学和科学推理任务上,缺乏在更广泛领域如自然语言推理、代码生成、常识推理等方面的验证,模型的通用推理能力仍有待证实。
  • 超参数敏感性 - 实验表明模型对学习率和LoRA秩等超参数较为敏感,这可能增加在新场景中应用的难度和不确定性。
  • 长期训练效应未明 - 研究未深入探讨长期训练对性能的影响,特别是"快速格式适应"假设在更长训练周期下是否依然成立,以及是否存在性能饱和或退化点。
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2025-04-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
只花9美元,推理能力暴涨20%!小模型Tina震撼登场,成本缩减260倍
在人工智能领域,语言模型的发展日新月异,推理能力作为语言模型的核心竞争力之一,一直是研究的焦点,许多的 AI 前沿人才对 AI 推理的效率进行研究。
机器之心
2025/05/01
630
只花9美元,推理能力暴涨20%!小模型Tina震撼登场,成本缩减260倍
只要9美元!LoRA+强化学习,DeepSeek 1.5B推理性能暴涨20%
来自南加州大学(University of Southern California,USC)的研究团队,基于LoRA的强化学习(RL)训练了1.5B推理模型——
新智元
2025/05/04
1130
只要9美元!LoRA+强化学习,DeepSeek 1.5B推理性能暴涨20%
HuggingFace 又出新教程啦!手把手教你构建DeepSeek-R1推理模型
LLM 在许多生成任务上表现出色。然而,直到最近,它们还在解决需要推理的复杂问题上举步维艰。例如,它们很难处理需要多步推理的谜题或数学问题。
致Great
2025/03/05
4260
HuggingFace 又出新教程啦!手把手教你构建DeepSeek-R1推理模型
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
近日,一份围绕 LLM 后训练的综述报告收获了不少好评,其整理相关论文和工具的资源库已经收获了超过 700 star。
机器之心
2025/05/02
1220
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
全球开发者组团训练,首个异步强化学习32B推理模型震撼来袭!数据已开源
最近,全球第一个用去中心化强化学习训练的32B模型——INTELLECT-2正式发布!
新智元
2025/04/27
1130
全球开发者组团训练,首个异步强化学习32B推理模型震撼来袭!数据已开源
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
自 OpenAI 发布 o1-mini 模型以来,推理模型就一直是 AI 社区的热门话题,而春节前面世的开放式推理模型 DeepSeek-R1 更是让推理模型的热度达到了前所未有的高峰。
机器之心
2025/02/25
2320
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
深入了解Deepseek模型的最佳三篇论文
DeepSeek-R1:通过强化学习提升大型语言模型的推理能力。 2025年1月发布,提出了一种使用强化学习而非监督学习的方法,显著提升了语言模型在数学和逻辑推理任务中的表现,开辟了新的研究方向。
致Great
2025/02/09
1.4K0
深入了解Deepseek模型的最佳三篇论文
万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!
在今年的春节期间,DeepSeek 火出了圈。凭借 DeepSeek-V3 与 DeepSeek-R1 的创新技术和卓越表现,DeepSeek 迅速成为了行业内外的焦点。不管是技术专家还是普通用户,都对 DeepSeek 赞不绝口。我们特别准备了这篇技术科普文章,期望无论你是不是技术同学,都能够读懂 DeepSeek。
腾讯云开发者
2025/02/27
9810
万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!
强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展
「推理」已成为语言模型的下一个主要前沿领域,近期学术界和工业界都取得了突飞猛进的进展。
机器之心
2025/04/13
680
强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展
使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独
近日,技术博主 Hrishbh Dalal 的实践表明,这个问题的答案是肯定的。并且他在这个过程中用到了 DeepSeek 开发的 GRPO 算法,最终他「成功在一个小型数独数据集上实现了高奖励和解答」。
机器之心
2025/03/11
1790
使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独
理解什么是推理模型,看懂这篇就够了
DeepSeek-R1、OpenAI o3-mini 和 Google Gemini 2.0 Flash Thinking 是通过“推理”框架将 LLMs 扩展到新高度的典范。
AIGC新知
2025/03/21
5190
理解什么是推理模型,看懂这篇就够了
DeepSeek-R1复现方案梳理
由huggingface组建,目前刚上线2周,发布了最新进展open-r1/update-1,在MATH-500任务上接近deepseek的指标,可以在open-r1/open-r1-eval-leaderboard查看指标的排行榜。
致Great
2025/02/13
4460
DeepSeek-R1复现方案梳理
OpenAI没做到,DeepSeek搞定了!开源引爆推理革命
DeepSeek-R1的秘籍在于强化学习微调算法:群体相对策略优化(Group Relative Policy Optimization,GRPO)。
新智元
2025/05/25
1550
OpenAI没做到,DeepSeek搞定了!开源引爆推理革命
更长思维并不等于更强推理性能,强化学习可以很简洁
今天早些时候,著名研究者和技术作家 Sebastian Raschka 发布了一条推文,解读了一篇来自 Wand AI 的强化学习研究,其中分析了推理模型生成较长响应的原因。
机器之心
2025/04/15
970
更长思维并不等于更强推理性能,强化学习可以很简洁
Sebastian Raschka:关于DeepSeek R1和推理模型,我有几点看法
著名 AI 研究者和博主 Sebastian Raschka 又更新博客了。这一次,他将立足于 DeepSeek 技术报告,介绍用于构建推理模型的四种主要方法,也就是如何通过推理能力来增强 LLM。Sebastian Raschka 表示:「我希望这能提供有价值的见解,并帮助你了解围绕这一主题的快速演变的文献和话题炒作。」
机器之心
2025/02/10
1810
Sebastian Raschka:关于DeepSeek R1和推理模型,我有几点看法
只用图像也能思考,强化学习造就推理模型新范式!复杂场景规划能力Max
近年来,LLM 及其多模态扩展(MLLM)在多种任务上的推理能力不断提升。然而, 现有 MLLM 主要依赖文本作为表达和构建推理过程的媒介,即便是在处理视觉信息时也是如此 。
机器之心
2025/05/26
1390
只用图像也能思考,强化学习造就推理模型新范式!复杂场景规划能力Max
DeepSeek开源Prover-V2强推理模型,网友:奥数从没这么简单过
前些天到处都在流传着 DeepSeek-R2 即将发布的传言,DeepSeek 确实有新动作,不过大家没等来 R2,等来的是 DeepSeek-Prover-V2,它当然也是开源的。
机器之心
2025/05/02
1830
DeepSeek开源Prover-V2强推理模型,网友:奥数从没这么简单过
蚂蚁 & 清华联手开源,人人都能复刻QwQ-32B
而 DeepSeek R1 、 OpenAI o1 、文心大模型 X1 以及 QVQ-Max 的出现,则表明 LLM 领域的 Scaling Law 正在发生变化。这类模型在数学、代码、长程规划等问题上的表现尤为突出,而且其推理能力提升的关键,就是后训练阶段中强化学习训练和推理阶段思考计算量的增大。一方面意味着后训练扩展定律(Post-Training Scaling Laws)正在引发社区对于算力分配、后训练能力的重新思考,另一方面也让强化学习(RL,Reinforcement Learning)成为了大语言模型能力提升的新引擎。
深度学习与Python
2025/04/02
860
蚂蚁 & 清华联手开源,人人都能复刻QwQ-32B
超越DeepSeek-R1,英伟达开源新王登顶!14万H100小时训练细节全曝光
现在,英伟达Llama-Nemotron系列模型,正式超越DeepSeek-R1!
新智元
2025/05/08
890
超越DeepSeek-R1,英伟达开源新王登顶!14万H100小时训练细节全曝光
DeepSeek-R1:强化学习驱动的LLM推理能力提升
本文主要介绍一种新的训练策略,通过纯强化学习显著提升了LLM的推理能力,主要包括下面几点:
三掌柜
2025/02/06
3370
DeepSeek-R1:强化学习驱动的LLM推理能力提升
推荐阅读
只花9美元,推理能力暴涨20%!小模型Tina震撼登场,成本缩减260倍
630
只要9美元!LoRA+强化学习,DeepSeek 1.5B推理性能暴涨20%
1130
HuggingFace 又出新教程啦!手把手教你构建DeepSeek-R1推理模型
4260
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
1220
全球开发者组团训练,首个异步强化学习32B推理模型震撼来袭!数据已开源
1130
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
2320
深入了解Deepseek模型的最佳三篇论文
1.4K0
万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!
9810
强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展
680
使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独
1790
理解什么是推理模型,看懂这篇就够了
5190
DeepSeek-R1复现方案梳理
4460
OpenAI没做到,DeepSeek搞定了!开源引爆推理革命
1550
更长思维并不等于更强推理性能,强化学习可以很简洁
970
Sebastian Raschka:关于DeepSeek R1和推理模型,我有几点看法
1810
只用图像也能思考,强化学习造就推理模型新范式!复杂场景规划能力Max
1390
DeepSeek开源Prover-V2强推理模型,网友:奥数从没这么简单过
1830
蚂蚁 & 清华联手开源,人人都能复刻QwQ-32B
860
超越DeepSeek-R1,英伟达开源新王登顶!14万H100小时训练细节全曝光
890
DeepSeek-R1:强化学习驱动的LLM推理能力提升
3370
相关推荐
只花9美元,推理能力暴涨20%!小模型Tina震撼登场,成本缩减260倍
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档