首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >从零开始训练大模型的 4 个阶段,清晰讲解(含可视化)

从零开始训练大模型的 4 个阶段,清晰讲解(含可视化)

作者头像
Ai学习的老章
发布2025-10-11 11:51:18
发布2025-10-11 11:51:18
8100
举报

大家好,我是 Ai 学习的老章

从零开始构建 LLMs 的四个阶段,使其能够应用于真实场景。

涵盖:

  • 预训练
  • 指令微调
  • 偏好微调
  • 推理微调

0️⃣ 随机初始化的 LLM

此时,模型一无所知。

你问它“什么是 LLM?”,得到的却是像“try peter hand and hello 448Sn”这样的胡言乱语。

它尚未见过任何数据,只拥有随机的权重。

1️⃣ 预训练

这一阶段通过在海量语料上训练 LLM 预测下一个 token,让它掌握语言的基本规律,从而吸收语法、世界知识等。

但它并不擅长对话,因为当被提示时,它只是继续生成文本。

2️⃣ 指令微调

为了让模型具备对话能力,我们通过在指令 - 响应对上进行训练来进行指令微调。这帮助它学会如何遵循提示并格式化回复。

现在它可以:

  • 回答问题
  • 总结内容
  • 编写代码等

此时,我们很可能已经:

  • 用尽了整个原始互联网档案和知识。
  • 用光了用于人工标注指令 - 回复数据的预算。

那么我们还能做什么来进一步提升模型?

我们进入了强化学习(RL)的领域。

3️⃣ 偏好微调(PFT)

你一定在 ChatGPT 上见过这个界面,它会问:你更喜欢哪个回答?

这不仅仅是为了收集反馈,更是宝贵的人类偏好数据。

OpenAI 利用这些数据,通过偏好微调来优化他们的模型。

在 PFT 中:

用户在两个回答之间做出选择,以生成人类偏好数据。

随后训练一个奖励模型来预测人类偏好,并使用 RL 更新 LLM。

上述过程称为 RLHF(Reinforcement Learning with Human Feedback,基于人类反馈的强化学习),用于更新模型权重的算法称为 PPO。

它教会 LLM 在没有“正确答案”的情况下也能与人类对齐。

但我们还可以进一步改进 LLM。

4️⃣ 推理微调

在推理任务(数学、逻辑等)中,通常只有一个正确答案,以及一系列明确的步骤来得出答案。

因此我们不需要人类偏好,而是可以用正确性作为信号。

这被称为推理微调 👇

步骤:

  • 模型针对提示生成一个答案。
  • 将该答案与已知正确答案进行比较。
  • 根据正确性,我们给予奖励。

这被称为“基于可验证奖励的强化学习”。

DeepSeek 的 GRPO 是一种流行的技术。

这就是从零开始训练一个 LLM 的 4 个阶段。

  • 从一个随机初始化的模型开始。
  • 在大规模语料库上进行预训练。
  • 使用指令微调,使其能够遵循命令。
  • 使用偏好与推理微调来优化回答。

本文来源:https://x.com/akshay_pachaar/status/1962855866786607117

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-09-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 0️⃣ 随机初始化的 LLM
  • 1️⃣ 预训练
  • 3️⃣ 偏好微调(PFT)
  • 4️⃣ 推理微调
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档