首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >深度学习进阶(五)——强化学习与决策智能:让模型学会行动

深度学习进阶(五)——强化学习与决策智能:让模型学会行动

作者头像
海棠未眠
发布2025-10-22 16:50:23
发布2025-10-22 16:50:23
5300
代码可运行
举报
运行总次数:0
代码可运行

一、前言:从“预测”到“决策”的跃迁

在深度学习的发展历程中,卷积网络学会了「看」,Transformer 学会了「读」,而生成模型学会了「写」。 但智能的终极形态,不仅是理解与表达,还包括「行动」。

强化学习(Reinforcement Learning, RL)正是让机器从经验中学习决策策略的核心方法。 如果说监督学习是在教模型“该输出什么”, 那么强化学习是在教模型“该做什么”。

与分类、回归等任务不同,强化学习不依赖大量标注样本。 它关注的是一个更真实的问题:

当模型身处一个动态环境时,如何通过试错获得最大奖励?

这是自动驾驶、机器人控制、游戏 AI、智能推荐系统乃至 ChatGPT 的「RLHF(强化学习人类反馈)」的基础。

本篇文章将从直觉到数学推导,再到算法实现,完整梳理强化学习的核心框架:

  • 强化学习的基本概念;
  • 马尔可夫决策过程(MDP);
  • 价值函数与策略;
  • 动态规划与 Q-learning;
  • 策略梯度与 Actor-Critic;
  • 现代算法:PPO、SAC;
  • RLHF 在大模型中的应用。

二、直觉理解:机器如何“试着去做”

强化学习的核心思想可以用一句话概括:

「做 → 看结果 → 学会下次该怎么做得更好。」

它与人类的经验学习非常接近。 小孩第一次学走路,会摔倒无数次,但每次摔倒后会调整重心——这就是「反馈信号」。 强化学习正是模拟这种机制: 模型不断与环境交互,观察状态、采取动作、获得奖励,并更新策略。

整个过程是闭环的:

代码语言:javascript
代码运行次数:0
运行
复制
状态(state) → 动作(action) → 奖励(reward) → 新状态(state') → ...

模型目标是找到一个最优策略(policy),在长期累计奖励最大化的前提下,做出正确的决策。


三、形式化定义:马尔可夫决策过程(MDP)

强化学习问题通常用 马尔可夫决策过程(Markov Decision Process, MDP) 表示。

一个 MDP 可以定义为一个五元组:

其中:

  • SSS:状态集合(state space)
  • AAA:动作集合(action space)
  • P(s′∣s,a)P(s'|s,a)P(s′∣s,a):状态转移概率(state transition)
  • R(s,a)R(s,a)R(s,a):奖励函数(reward function)
  • γ∈[0,1]\gamma \in [0,1]γ∈[0,1]:折扣因子(discount factor)

折扣因子的意义在于,未来的奖励权重会逐渐降低,防止模型“过于贪心未来”。

目标是最大化期望累计奖励:

其中 π(a∣s)\pi(a|s)π(a∣s) 是策略,即在状态 s 下采取动作 a 的概率。


四、价值函数:衡量“好不好”的核心

强化学习中最核心的思想是“值”(Value):

值函数告诉我们,在当前状态下,如果遵循某个策略,长期来看到底有多好。

常见的两个函数:

  1. 状态价值函数
  1. 动作价值函数(Q 值):

两者关系:

如果我们能准确估计 Q(s,a)Q(s,a)Q(s,a),就能直接找到最优动作:


五、动态规划与 Bellman 方程

强化学习的数学基础是 Bellman 方程,它揭示了“当前价值”和“下一步价值”的递推关系。

或在最优情况下:

这就是 Bellman 最优方程。 它意味着:

当前的最优值 = 立即奖励 + 折扣后的未来最优值。

这种递推关系构成了所有 RL 算法的理论基石。


六、值迭代与 Q-learning

(1)值迭代

值迭代(Value Iteration)直接利用 Bellman 方程进行迭代更新,直到收敛:

代码语言:javascript
代码运行次数:0
运行
复制
V[s] = max_a (R(s, a) + gamma * sum(P(s'|s, a) * V[s']))

当状态空间较小时,这种算法简单且有效。


(2)Q-learning

Q-learning 是一种无模型(model-free)算法,不需要知道环境转移概率,只通过经验样本更新:

伪代码:

代码语言:javascript
代码运行次数:0
运行
复制
for each episode:
    s = env.reset()
    while not done:
        a = epsilon_greedy(Q, s)
        s_next, r, done = env.step(a)
        Q[s,a] = Q[s,a] + alpha * (r + gamma * max(Q[s_next]) - Q[s,a])
        s = s_next

核心机制:

  • 探索与利用(Exploration vs. Exploitation)
    • 探索:尝试新的动作(可能获得更好奖励);
    • 利用:选择当前最优动作;
  • ε-greedy 策略:以 ε 的概率随机探索,以 1-ε 的概率选择最优动作。

Q-learning 让智能体能通过反复试错,不依赖模型结构,学习出近似最优策略。


七、从 Q-learning 到深度 Q 网络(DQN)

当状态空间巨大(如 Atari 游戏)时,传统 Q-table 无法存储所有状态。 于是 DeepMind 在 2015 年提出 DQN(Deep Q-Network),用神经网络来近似 Q 函数。

核心思路:

算法引入两大关键技术:

  1. 经验回放(Experience Replay)
    • 将交互经验存入缓冲区;
    • 训练时随机采样,打破时间相关性。
  2. 目标网络(Target Network)
    • 复制一个延迟更新的网络,用于计算目标 Q 值,避免震荡。

伪代码:

代码语言:javascript
代码运行次数:0
运行
复制
replay_buffer = []
for each step:
    replay_buffer.append((s,a,r,s_next))
    batch = random_sample(replay_buffer)
    target = r + gamma * max(Q_target(s_next))
    loss = mse(Q_main(s,a), target)
    update(Q_main)

DQN 的成功(Atari 游戏超越人类)标志着深度学习与强化学习的第一次完美结合。


八、策略梯度与 Actor-Critic 框架

Q-learning 适用于离散动作空间,而在连续控制任务(如机械臂)中就不再适用。 此时我们引入另一类算法:策略梯度(Policy Gradient)

策略梯度的目标是直接优化策略参数 θ\thetaθ,最大化期望奖励:

其梯度为:

这就是著名的 REINFORCE 算法。

伪代码:

代码语言:javascript
代码运行次数:0
运行
复制
for each episode:
    collect (s,a,r)
    G = discounted_reward()
    theta += alpha * grad(log(pi(a|s))) * G

Actor-Critic 框架

为降低方差,引入 价值函数基线(baseline),同时维护两个网络:

  • Actor:生成动作;
  • Critic:评估动作价值。

梯度更新:

这样既保留策略优化的灵活性,又具备值函数的稳定性。

代表算法包括:

  • A2C / A3C(同步与异步版本);
  • DDPG(确定性策略梯度,适用于连续动作);
  • SAC(Soft Actor-Critic,熵正则化策略,提高探索性);
  • PPO(Proximal Policy Optimization,最流行的稳定算法)。

九、现代强化学习的核心算法:PPO 概览

PPO(Proximal Policy Optimization)通过限制策略更新幅度,避免了梯度爆炸与性能退化。 它的核心思想是:

不让新策略离旧策略太远。

关键目标函数:

其中:

实现时简单高效,是当前主流 RL 与 RLHF 的基础。


十、RLHF:从强化学习到 ChatGPT

RLHF(Reinforcement Learning from Human Feedback)是强化学习在大语言模型中的关键应用。

过程如下:

  1. 监督微调(SFT): 用人工标注数据微调模型,使其生成高质量回答。
  2. 奖励模型(Reward Model): 人类对多条回答进行排序,训练一个模型预测“哪条更好”。
  3. 强化学习优化(PPO): 使用奖励模型作为环境,模型通过 PPO 优化生成策略。

伪代码简化:

代码语言:javascript
代码运行次数:0
运行
复制
for each prompt:
    outputs = policy.generate(prompt)
    reward = reward_model(outputs)
    loss = PPO_clip(policy, old_policy, reward)

RLHF 的目标不是获得最大奖励,而是让模型对齐人类偏好,从而输出符合人类价值的内容。 这也是 ChatGPT、Claude、Gemini 等系统具备“温度感”的核心。


十一、现实挑战与展望

强化学习虽强大,但仍存在难点:

  • 奖励设计困难(Reward Engineering);
  • 样本效率低;
  • 训练过程不稳定;
  • 泛化性差。

未来方向:

  1. 基于模型的强化学习(Model-based RL):让智能体学习环境动态,提升样本利用率。
  2. 分层强化学习(Hierarchical RL):拆分复杂任务为子目标。
  3. 结合大模型的决策智能:让语言模型成为策略生成器,强化学习负责行动执行。
  4. 世界模型(World Model):融合感知、记忆与推理,模拟现实世界的学习过程。

十二、结语:智能的下一步,是“会行动”

强化学习让机器从被动的“模式匹配”者,变成主动的“策略制定者”。 它不再依赖人类告诉它“正确答案”,而是自己去探索“什么是对的”。

正如 DeepMind 的 AlphaGo 改变了围棋,ChatGPT 改变了语言交互,未来的强化学习将改变「决策」。 无论是在无人驾驶、智能机器人还是通用人工智能中,RL 都是连接“理解”与“行动”的关键桥梁

看得懂世界,是理解; 动得起世界,才是智能。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2025-10-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、前言:从“预测”到“决策”的跃迁
  • 二、直觉理解:机器如何“试着去做”
  • 三、形式化定义:马尔可夫决策过程(MDP)
  • 四、价值函数:衡量“好不好”的核心
  • 五、动态规划与 Bellman 方程
  • 六、值迭代与 Q-learning
    • (1)值迭代
    • (2)Q-learning
  • 七、从 Q-learning 到深度 Q 网络(DQN)
  • 八、策略梯度与 Actor-Critic 框架
    • Actor-Critic 框架
  • 九、现代强化学习的核心算法:PPO 概览
  • 十、RLHF:从强化学习到 ChatGPT
  • 十一、现实挑战与展望
  • 十二、结语:智能的下一步,是“会行动”
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档