开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >聊聊大模型微调训练全流程的思考

聊聊大模型微调训练全流程的思考

作者头像

Ryan_OVO

发布于 2024-03-19 00:03:32

发布于 2024-03-19 00:03:32

1.2K0

举报

文章被收录于专栏：程序随笔程序随笔

参考现有的中文医疗模型：MedicalGPT、CareGPT等领域模型的训练流程，结合ChatGPT的训练流程，总结如下：在预训练阶段，模型会从大量无标注文本数据集中学习领域/通用知识；其次使用{有监督微调}(SFT)优化模型以更好地遵守特定指令；最后使用对齐技术使LLM更有用更安全的响应用户的提示。

训练流程的四个阶段，分别如下：

预训练(pre-training，pt)，基于基座模型，经过海量中文医疗预料训练，得到领域适配的ChatGLM-6B。
监督微调(supervised finetuning，sft)，通过在线问诊等数据，构建训练数据完成指令微调。
RM模型构建(reward modeling, rm)，人工对预测答案排序，训练一个打分模型
强化学习阶段(reinforcement learning, rl)，基于PPO算法，采用RL的方式，完成fine-tuned ChatGLM-6B模型的优化。

预训练阶段-PT

该阶段的训练数据格式如下。对应是非结构化的自然语言文本，通过设定max_seq_len和block_size等方式，实现文本数据的chunk，batch化，作为模型的训练数据，处理完的单条数据包含input_ids,attention_mask和labels；训练的目标是模型需要根据提供的文本来预测下一个单词。

监督微调阶段-SFT

该阶段的训练数据格式如下。一般对应的结构采用instruction/input/output/history，根据不同的场景，input与history可以做缺省处理。但是需要人工标注的指令数据集。

对齐

该阶段的主要目标是将语言模型喻人类的偏好、价值观进行对齐，这也是RHLF机制的作用。 RLHF主要包括两步：

基于有监督微调模型基础上创建一个reward model（RM）模型；
基于RM模型使用PPO/DPO算法微调SFT模型，返回最佳response。

奖励模型-RM

该阶段是RHLF的第一个阶段，训练得到一个rm模型用于rl阶段的模型打分，其结构格式如下：

有多种格式的数据，可自己选择，但需要程序做额外的处理，且这些数据都是人工标注好的。

强化学习-RL

该阶段是RHLF的第二个阶段，也是核心部分，用于优化一个RM模型，并完成打分。数据格式同SFT。一般在此阶段会使用特定的算法(DPO/PPO)来实现；引导优化后的大模型生成更符合人类偏好的内容。

总结

对于模型的微调，一开始我是想的太简单了，觉得只要按照基座官方模型文档调试即可；随着了解的深入与不断的学习，微调是个大工程而且对于领域模型来说，其训练流程：预训练 --> 监督微调 --> RHLF 中包含的事项与知识太多。参考：【中文医疗大模型】训练全流程源码剖析

转载请注明出处：https://www.cnblogs.com/zhiyong-ITNote

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2024-03-18，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

暂无评论

编辑精选文章

换一批

万字详解高可用架构设计

Go 开发者必备：Protocol Buffers 入门指南

10分钟带你彻底搞懂分布式链路跟踪

多租户的 4 种常用方案

亿级月活的社交 APP，陌陌如何做到 3 分钟定位故障？

60页PPT全解：DeepSeek系列论文技术要点整理

聊聊心理医疗领域大模型的落地思考

开源产品模型数据医疗

近来，工作偏向于心理医疗领域方面的大模型，仅从领域大模型的落地，聊聊个人的一些思考。

Ryan_OVO

2024/03/21

1860

大模型SFT全解析：从原理到工具链，解锁AI微调的核心密码

数据原理服务工具模型

监督微调（Supervised Fine-Tuning, SFT）是一种在预训练语言模型（LLM）基础上，使用高质量标注数据进一步优化模型以适应特定任务或领域的技术。其核心是通过输入-输出对的标注数据（如指令、问题与答案），调整模型参数，使其在特定场景下生成更符合人类期望的响应。

AI浩

2025/05/21

5170

大模型SFT全解析：从原理到工具链，解锁AI微调的核心密码

万字长文详解DeepSeek核心技术

强化学习模型数据优化 DeepSeek

在今年的春节期间，DeepSeek 火出了圈。凭借 DeepSeek-V3 与 DeepSeek-R1 的创新技术和卓越表现，DeepSeek 迅速成为了行业内外的焦点。不管是技术专家还是普通用户，都对 DeepSeek 赞不绝口。我们特别准备了这篇技术科普文章，期望无论你是不是技术同学，都能够读懂 DeepSeek。

腾讯云开发者

2025/02/18

2.2K0

万字长文详解DeepSeek核心技术

小红书基于 PPO 的多模态大模型 RLHF 系统的设计与优化

架构模型设计系统优化

随着大模型技术从技术变革转向产业变革，大模型应用也会进一步繁荣，传统基础设施技术已经不足以满足大模型应用的快速发展。整个基础设施技术和产业链正在快速转型，向大模型基础设施技术演变。2025 QCon 全球软件开发大会（北京站）策划了「面向 AI 的研发基础设施」专题，通过本专题的深入探讨，希望让听众了解并掌握大模型基础设施技术的发展趋势和前沿动态，从企业工程实践和学术研究领域借鉴成功经验，为自身企业制定更大规模、更高性能以及更加稳定的大模型基础设施技术。如果你也有相关案例想要分享，欢迎通过以下链接提交演讲申请： https://jsj.top/f/tUOLpz

深度学习与Python

2025/03/07

3050

小红书基于 PPO 的多模态大模型 RLHF 系统的设计与优化

从零训练一个多模态LLM：预训练+指令微调+对齐+融合多模态+链接外部系统

论文模型数据系统 LLM

本文尝试梳理一个完整的多模态LLM的训练流程。包括模型结构选择、数据预处理、模型预训练、指令微调、对齐、融合多模态以及链接外部系统等环节。

zenRRan

2023/08/22

7.1K0

从零训练一个多模态LLM：预训练+指令微调+对齐+融合多模态+链接外部系统

解密prompt系列48. DeepSeek R1 & Kimi 1.5长思维链 - RL Scaling

nlp LLM DeepSeek

春节前DeepSeek R1和Kimi1.5炸翻天了，之前大家推测的O1的实现路径，多数都集中在MCTS推理优化，以及STaR等样本自优化方案等等，结果DeepSeek和Kiim直接出手揭示了reasoning的新路线不一定在SFT和Inference Scaling，也可以在RL。也算是Post Train阶段新的Scaling方向，几个核心Take Away包括

风雨中的小七

2025/02/07

1.1K0

解密prompt系列48. DeepSeek R1 & Kimi 1.5长思维链 - RL Scaling

医疗大语言模型：CareGPT

医疗开源部署模型数据

CareGPT (关怀GPT)是一个医疗大语言模型，同时它集合了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型，包含LLM的训练、测评、部署等以促进医疗LLM快速发展。

机器学习AI算法工程

2024/06/08

5270

医疗大语言模型：CareGPT

【强化学习】Reward Model（奖励模型）详细介绍

model 模型数据优化强化学习

Reward Model（奖励模型）是近年来在深度学习和强化学习领域广泛应用的一种技术，特别是在生成式模型（如大型语言模型）和强化学习（RL）结合的场景中，起到了至关重要的作用。它在多个领域的应用中，尤其是在自然语言处理（NLP）和数学推理领域，展现了显著的潜力。

不去幼儿园

2025/03/22

7040

【强化学习】Reward Model（奖励模型）详细介绍

聊聊大模型的微调实现及其应用

架构设计框架模型数据开源

模型的微调有多种方式，对于入门的来说，一般都是基于官方的文档微调；最近发现很多开源库，其目的就是支持应用多种微调策略来微调模型，简化模型的微调门槛。比如 ChatGLM-Efficient-Tuning、LLaMA-Factory。其架构逻辑如下：

Ryan_OVO

2024/03/16

5130

大模型（LLMs）算法工程师相关的面试题和参考答案

深度学习工程师模型数据算法

需要注意的是，复读机问题是大型语言模型面临的一个挑战，解决这个问题是一个复杂的任务，需要综合考虑数据、训练目标、模型架构和生成策略等多个因素。目前，研究人员和工程师们正在不断努力改进和优化大型语言模型，以提高其生成文本的多样性和创造性。

机器学习AI算法工程

2023/11/13

7.4K0

大模型（LLMs）算法工程师相关的面试题和参考答案

推理大模型的后训练增强技术-强化学习篇

数据优化强化学习函数模型

人生中充满选择，每次选择就是一次决策，我们正是从一次次决策中，把自己带领到人生的下一段旅程中。在回忆往事时，我们会对生命中某些时刻的决策印象深刻：“唉，当初我要是去那家公司实习就好了，在那里做的技术研究现在带来了巨大的社会价值。”通过这些反思，我们或许能领悟一些道理，变得更加睿智和成熟，以更积极的精神来迎接未来的选择和成长。

致Great

2025/03/10

3120

推理大模型的后训练增强技术-强化学习篇

DeepSeekMath：突破开放式语言模型中数学推理能力的极限，提出了GRPO，值得关注学习

模型数据数学性能强化学习

由于数学推理具有复杂且结构化的特性，这对语言模型构成了重大挑战。在本文中，我们介绍了 DeepSeekMath 7B 模型，该模型在 DeepSeek-Coder-Base-v1.5 7B 模型的基础上，使用从 Common Crawl 获取的 1200 亿个与数学相关的标记，以及自然语言和代码数据继续进行预训练。在不依赖外部工具包和投票技术的情况下，DeepSeekMath 7B 在竞赛级 MATH 基准测试中取得了 51.7% 的优异成绩，接近 Gemini-Ultra 和 GPT-4 的性能水平。通过对 DeepSeekMath 7B 生成的 64 个样本进行自洽性验证，其在 MATH 基准测试上的准确率达到了 60.9%。DeepSeekMath 的数学推理能力归因于两个关键因素：首先，我们通过精心设计的数据选择流程，充分利用了公开可用的网络数据的巨大潜力。其次，我们引入了组相对策略优化（Group Relative Policy Optimization，GRPO）算法，这是近端策略优化（Proximal Policy Optimization，PPO）算法的一个变体，它在增强数学推理能力的同时，还能优化 PPO 的内存使用。

AI浩

2025/06/08

960

DeepSeekMath：突破开放式语言模型中数学推理能力的极限，提出了GRPO，值得关注学习

MedicalGPT：基于LLaMA-13B的中英医疗问答模型（LoRA）

人工智能自然语言处理

**** 训练医疗大模型，实现包括二次预训练、有监督微调、奖励建模、强化学习训练。

汀丶人工智能

2023/07/29

1.9K0

MedicalGPT：基于LLaMA-13B的中英医疗问答模型（LoRA）

AI智能体研发之路-模型篇（一）：大模型训练框架LLaMA-Factory在国内网络环境下的安装、部署及使用

模型网络研发部署框架

贫富差距的产生是信息差，技术贫富差距的产生亦如此。如果可以自我发现或者在别人的指导下发现优秀的开源项目，学习或工作效率真的可以事半功倍。

LDG_AGI

2024/08/13

3.4K0

AI智能体研发之路-模型篇（一）：大模型训练框架LLaMA-Factory在国内网络环境下的安装、部署及使用

大模型训练全解析：预训练、微调、强化学习，一步到位！

基础模型数据优化强化学习

2025年初，随着DeepSeek的迅速走红，公众对LLM（大语言模型）的兴趣急剧上升。许多人被LLM展现出的近乎魔法的能力所吸引。然而，这些看似神奇的模型背后究竟隐藏着什么秘密？接下来，我们将深入探讨LLM的构建、训练和微调过程，揭示它们如何从基础模型演变为我们今天所使用的强大AI系统。

福大大架构师每日一题

2025/03/18

6840

大模型训练全解析：预训练、微调、强化学习，一步到位！

万字长文解构DeepSeek V1/V2/V3/R1进化史：从算法革命到推理涌现！

模型数据算法 DeepSeek 强化学习

在今年的春节期间，DeepSeek 火出了圈。凭借 DeepSeek-V3 与 DeepSeek-R1 的创新技术和卓越表现，DeepSeek 迅速成为了行业内外的焦点。不管是技术专家还是普通用户，都对 DeepSeek 赞不绝口。我们特别准备了这篇技术科普文章，期望无论你是不是技术同学，都能够读懂 DeepSeek。

腾讯云开发者

2025/02/27

9630

万字长文解构DeepSeek V1/V2/V3/R1进化史：从算法革命到推理涌现！

大语言模型技术原理

人工智能模型 chatgpt AIGC 存储内容安全数据库

在今天这个时代，人们的工作和生活已经离不开数据访问，而几乎所有平台背后的数据存储和查询都离不开数据库。SQL作为一种数据库的查询和处理语言历史悠久，最早由IBM于上世纪70年代初研究关系数据模型时提出，后续发展为一种广泛使用的数据库标准访问接口。

NineData

2023/05/30

1.8K0

每日论文速递 | 使用对比Reward改进RLHF

优化强化学习论文模型性能

摘要：来自人类反馈的强化学习（RLHF）是将大语言模型（LLM）与人类偏好相匹配的主流范式。然而，现有的 RLHF 在很大程度上依赖于准确、翔实的奖励模型，而奖励模型对各种来源的噪声（如人类标签错误）很脆弱、很敏感，从而使管道变得脆弱。在这项工作中，我们通过在奖励上引入惩罚项来提高奖励模型的有效性，该惩罚项被命名为contrastive rewards。我们的方法包括两个步骤：(1) 离线采样步骤，获取对提示的回应，作为计算基线；(2) 使用基线回应计算对比奖励，并将其用于近端策略优化 (PPO) 步骤。我们的研究表明，对比奖励使 LLM 能够惩罚奖励的不确定性、提高鲁棒性、鼓励改进基线、根据任务难度进行校准以及减少 PPO 中的差异。通过 GPT 和人类的评估，我们的实证结果表明，对比性奖励可以大幅提高 RLHF，而且我们的方法始终优于强基线。

zenRRan

2024/03/25

6480

每日论文速递 | 使用对比Reward改进RLHF

LLM资料大全：文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等

自ChatGPT为代表的大语言模型（Large Language Model, LLM）出现以后，由于其惊人的类通用人工智能（AGI）的能力，掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后，业界涌现了非常多基于LLM的二次微调或应用的案例。本项目旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料，目前收录的资源已达100+个！

汀丶人工智能

2024/04/29

3.2K0

LLM资料大全：文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等

解密Prompt7. 偏好对齐RLHF-OpenAI·DeepMind·Anthropic对比分析

prompt 自然语言处理 chatgpt 强化学习 nlp

前三章都围绕指令微调，这一章来唠唠RLHF。何为优秀的人工智能？抽象说是可以帮助人类解决问题的AI, 也可以简化成3H原则：Helpful + Honesty + Harmless。面向以上1个或多个原则，RLHF只是其中一种对齐方案，把模型输出和人类偏好进行对齐。大体分成3个步骤

风雨中的小七

2023/05/21

2.6K0

解密Prompt7. 偏好对齐RLHF-OpenAI·DeepMind·Anthropic对比分析

相关推荐

聊聊心理医疗领域大模型的落地思考

更多 >

LV.1

这个人很懒，什么都没有留下～

作者相关精选

换一批

目录

预训练阶段-PT

监督微调阶段-SFT

对齐
- 奖励模型-RM
- 强化学习-RL

总结

加入讨论

的问答专区 >

1北京宏哥擅长4个领域

相关课程

一站式学习中心 >

AI代码助手快速上手训练营

腾讯云代码助手

AI绘画-StableDiffusion图像生成

大模型图像创作引擎

高性能应用服务

微信公众号在线学习平台搭建实践_《硅谷课堂》