三掌柜
DeepSeek-R1:强化学习驱动的LLM推理能力提升
原创
关注作者
部署
DeepSeek
模型,进群交流最in玩法!
立即加群
腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
返回腾讯云官网
三掌柜
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
返回腾讯云官网
社区首页
>
专栏
>
DeepSeek-R1:强化学习驱动的LLM推理能力提升
DeepSeek-R1:强化学习驱动的LLM推理能力提升
三掌柜
关注
发布于 2025-02-06 17:42:33
发布于 2025-02-06 17:42:33
213
0
举报
概述
前提背景1、研究问题如何通过强化学习(RL)有效提升大型语言模型(LLM)的推理能力?2、问题背景近年来,LLM在自然语言处理、计算机视觉等多个领域取得了显著进展,但在推理能力方面仍有提升空间。以往的研究大多依赖于大量的监督微调(SFT)数据,但获取高质量的SFT数据成本高昂。OpenAI的o1系列模型通过增加思维链(Chain-of-Thought, CoT)推理过程的长度来提升推理能力,但如何
文章被收录于专栏:
人工智能
人工智能
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系
cloudcommunity@tencent.com
删除。
大模型部署
DeepSeek
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系
cloudcommunity@tencent.com
删除。
大模型部署
DeepSeek
评论
登录
后参与评论
0 条评论
热度
最新
推荐阅读
目录
前提背景
1、研究问题
2、问题背景
3、创作动机
相关的研究
内容核心
DeepSeek-R1-Zero
1、性能
2、自我演化过程
3、“顿悟”时刻
DeepSeek-R1:冷启动强化学习
阶段1:冷启动
阶段2:推理导向的强化学习
阶段3:拒绝采样与监督微调
阶段4:全场景强化学习
冷启动数据的作用
蒸馏小模型
为什么PRM和MCTS没有成功?
PRM 的挑战
MCTS 的挑战
实验与评估
1、基准测试
2、对比模型
3、实验设置
DeepSeek-R1 评估
蒸馏模型评估
延伸讨论:选择蒸馏还是强化学习?
结束语
参考文献
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档
0
0
0
推荐