首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >机器学习基础入门(第五篇):半监督学习与强化学习

机器学习基础入门(第五篇):半监督学习与强化学习

作者头像
禁默
发布2025-12-21 10:05:22
发布2025-12-21 10:05:22
60
举报

一、前言

在前几篇文章中,我们学习了机器学习的两大基本类型:监督学习(Supervised Learning) 与 无监督学习(Unsupervised Learning)。

  • 监督学习依赖大量带标签的数据,适用于分类、回归等任务;
  • 无监督学习则无需标签,常用于聚类、降维、模式发现等问题。

然而,在现实世界中,标注数据往往稀缺而昂贵。例如,为成千上万张医学影像打上疾病标签,需要专业医生的时间与经验;而未标注的数据(例如海量图片、视频、日志信息)却极其丰富。

于是,一种“折中”的方法——半监督学习(Semi-supervised Learning) 应运而生。它结合了监督学习与无监督学习的优势:用少量标注数据引导大量未标注数据学习

除此之外,还有一种完全不同的学习范式——强化学习(Reinforcement Learning)。它不依赖标签,而是让智能体(Agent)在环境中不断试错,通过“奖励”机制学会最优策略。

本文将详细介绍这两种重要的学习方法,它们构成了现代智能系统的基础。


二、半监督学习(Semi-supervised Learning)

1. 半监督学习的动机

传统的监督学习假设所有数据都有标签,但在许多实际问题中,这个假设并不现实。例如:

  • 医学影像识别中,标注一张CT图像可能需要医生几分钟甚至几十分钟;
  • 网络安全检测中,确定哪些流量是“恶意攻击”需要人工分析;
  • 语音识别中,大量语音数据没有文字转录。

而另一方面,大量未标注数据往往可以轻易获得。半监督学习的目标,就是通过同时利用少量标注数据大量未标注数据,来提升模型的泛化能力。

2. 半监督学习的基本思想

半监督学习的核心假设有三个:

  1. 平滑假设(Smoothness Assumption):在特征空间中,距离较近的样本往往属于同一类别。
  2. 聚类假设(Cluster Assumption):样本自然分布在若干簇中,同一簇的样本具有相同的标签。
  3. 流形假设(Manifold Assumption):高维数据分布在一个低维流形上,模型应学习到这一结构。

利用这些假设,模型可以将少量标注数据的信息“传播”给未标注数据,从而形成更全面的学习。

3. 常见的半监督学习方法
(1)自训练(Self-training)

最早期也是最直观的方法。

  • 首先用少量标注数据训练初始模型;
  • 然后用模型预测未标注数据的标签;
  • 将置信度高的预测结果加入训练集,继续迭代训练。

例如在文本分类中,如果模型对某些未标注新闻的预测置信度达到 95%,则可以将它们作为“伪标签”数据加入下一轮训练。

优点:简单易实现; 缺点:容易积累错误标签(即“伪标签污染”)。

(2)协同训练(Co-training)

由 Blum 和 Mitchell 在 1998 年提出,适用于具有两个独立特征视图的数据。

  • 用不同特征视角分别训练两个模型;
  • 两个模型互相给对方提供置信度高的伪标签样本;
  • 不断迭代,共同提升性能。

常用于网页分类、情感分析等场景。

(3)图半监督学习(Graph-based SSL)

将样本视为图中的节点,节点间的边表示相似度。已标注节点的标签可沿边传播给未标注节点。

代表方法:标签传播(Label Propagation)图卷积网络(GCN) 等。

(4)生成模型方法

如基于变分自编码器(VAE)、**生成对抗网络(GAN)**的半监督学习,通过生成模型增强数据分布理解。

(5)现代半监督学习(深度伪标签)

在深度学习时代,Google 提出的 Pseudo LabelMixMatchFixMatch 等算法成为主流。 它们通过数据增强、置信度过滤和一致性正则化(Consistency Regularization)等手段,实现高效的半监督训练。

4. 半监督学习的应用领域
  • 医学影像分析(少量医生标注 + 大量未标注图像)
  • 网络安全与入侵检测
  • 文本分类与情感分析
  • 视频动作识别
  • 自动驾驶感知系统(未标注图像大量存在)
5. 面临的挑战
  • 如何避免伪标签错误的累积?
  • 如何度量未标注样本的不确定性?
  • 不同分布的数据如何有效融合?

三、强化学习(Reinforcement Learning)

1. 基本概念

强化学习(Reinforcement Learning, RL)是一种完全不同的学习范式。 它不依赖标签,而是通过与环境(Environment)交互,不断试错,以最大化**长期奖励(Reward)**为目标。

强化学习的核心理念可以用一句话概括: “在试错中学习最优策略。”

常见的类比是: 一个小孩学骑自行车,不会有人告诉他“正确姿势”,而是靠摔倒、调整、再尝试,直到学会平衡。

2. 强化学习的组成要素

一个强化学习系统通常包含以下五个核心组件:

组件

含义

Agent(智能体)

学习者或决策者

Environment(环境)

智能体所处的世界

State(状态)

当前环境的描述

Action(动作)

智能体可执行的操作

Reward(奖励)

执行动作后的反馈信号

学习的目标是找到一个最优策略 π,使得智能体获得的累计奖励最大化:


3. 强化学习的主要类型
(1)基于值的方法(Value-based)

通过学习一个“状态-动作”价值函数 ( Q(s,a) ),估计在状态 s 下执行动作 a 的期望奖励。

代表算法:

  • Q-learning
  • Deep Q-Network (DQN) —— 结合深度神经网络进行价值估计,是 DeepMind 的突破性成果。
(2)基于策略的方法(Policy-based)

直接学习一个策略函数 π(a|s),即在状态 s 下选择动作 a 的概率。

代表算法:

  • REINFORCE
  • PPO(Proximal Policy Optimization) —— 被 OpenAI 广泛使用。
(3)Actor-Critic 方法

结合了上述两种思想:Actor 负责输出策略,Critic 负责评估动作的好坏。 代表算法有:A2C、A3C、DDPG 等。


4. 强化学习的经典应用
  • 游戏智能体:AlphaGo、AlphaStar、OpenAI Five
  • 机器人控制:机械臂操作、自动驾驶导航
  • 推荐系统:基于用户反馈动态优化推荐
  • 金融交易策略优化
  • 能源调度与智能制造

强化学习在需要“长期决策”的问题上展现出巨大潜力。


5. 强化学习的挑战

尽管强化学习成果显著,但在现实落地中仍面临以下难题:

  1. 样本效率低:需要大量交互才能收敛;
  2. 探索与利用的平衡:如何在尝试新策略与利用已知最优策略之间权衡;
  3. 环境复杂性高:真实环境往往噪声大、不可预测;
  4. 奖励设计困难:定义合适的奖励函数是工程中的关键挑战。

四、半监督学习与强化学习的结合

现代研究趋势正在融合不同学习范式。例如:

  • 半监督强化学习(Semi-supervised RL):利用未标注环境数据辅助策略优化;
  • 自监督强化学习(Self-supervised RL):通过预测未来状态或特征变化来提升策略泛化。

这类方法在自动驾驶、智能机器人中展现出极大潜力。


五、总结

本文介绍了两种重要的机器学习方法:

  • 半监督学习:通过少量标注 + 大量未标注数据进行学习,是解决数据稀缺问题的重要方向;
  • 强化学习:让智能体通过试错和奖励信号,自主学习最优策略,是构建智能决策系统的核心技术。

两者在现代人工智能中的地位举足轻重,既是理论研究的热点,也是实际应用的关键支撑。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2025-10-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、前言
  • 二、半监督学习(Semi-supervised Learning)
    • 1. 半监督学习的动机
    • 2. 半监督学习的基本思想
    • 3. 常见的半监督学习方法
      • (1)自训练(Self-training)
      • (2)协同训练(Co-training)
      • (3)图半监督学习(Graph-based SSL)
      • (4)生成模型方法
      • (5)现代半监督学习(深度伪标签)
    • 4. 半监督学习的应用领域
    • 5. 面临的挑战
  • 三、强化学习(Reinforcement Learning)
    • 1. 基本概念
    • 2. 强化学习的组成要素
    • 3. 强化学习的主要类型
      • (1)基于值的方法(Value-based)
      • (2)基于策略的方法(Policy-based)
      • (3)Actor-Critic 方法
    • 4. 强化学习的经典应用
    • 5. 强化学习的挑战
  • 四、半监督学习与强化学习的结合
  • 五、总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档