
在前几篇文章中,我们学习了机器学习的两大基本类型:监督学习(Supervised Learning) 与 无监督学习(Unsupervised Learning)。
然而,在现实世界中,标注数据往往稀缺而昂贵。例如,为成千上万张医学影像打上疾病标签,需要专业医生的时间与经验;而未标注的数据(例如海量图片、视频、日志信息)却极其丰富。
于是,一种“折中”的方法——半监督学习(Semi-supervised Learning) 应运而生。它结合了监督学习与无监督学习的优势:用少量标注数据引导大量未标注数据学习。
除此之外,还有一种完全不同的学习范式——强化学习(Reinforcement Learning)。它不依赖标签,而是让智能体(Agent)在环境中不断试错,通过“奖励”机制学会最优策略。
本文将详细介绍这两种重要的学习方法,它们构成了现代智能系统的基础。
传统的监督学习假设所有数据都有标签,但在许多实际问题中,这个假设并不现实。例如:
而另一方面,大量未标注数据往往可以轻易获得。半监督学习的目标,就是通过同时利用少量标注数据和大量未标注数据,来提升模型的泛化能力。
半监督学习的核心假设有三个:
利用这些假设,模型可以将少量标注数据的信息“传播”给未标注数据,从而形成更全面的学习。

最早期也是最直观的方法。
例如在文本分类中,如果模型对某些未标注新闻的预测置信度达到 95%,则可以将它们作为“伪标签”数据加入下一轮训练。
优点:简单易实现; 缺点:容易积累错误标签(即“伪标签污染”)。
由 Blum 和 Mitchell 在 1998 年提出,适用于具有两个独立特征视图的数据。
常用于网页分类、情感分析等场景。
将样本视为图中的节点,节点间的边表示相似度。已标注节点的标签可沿边传播给未标注节点。
代表方法:标签传播(Label Propagation)、图卷积网络(GCN) 等。
如基于变分自编码器(VAE)、**生成对抗网络(GAN)**的半监督学习,通过生成模型增强数据分布理解。
在深度学习时代,Google 提出的 Pseudo Label、MixMatch、FixMatch 等算法成为主流。 它们通过数据增强、置信度过滤和一致性正则化(Consistency Regularization)等手段,实现高效的半监督训练。
强化学习(Reinforcement Learning, RL)是一种完全不同的学习范式。 它不依赖标签,而是通过与环境(Environment)交互,不断试错,以最大化**长期奖励(Reward)**为目标。
强化学习的核心理念可以用一句话概括: “在试错中学习最优策略。”
常见的类比是: 一个小孩学骑自行车,不会有人告诉他“正确姿势”,而是靠摔倒、调整、再尝试,直到学会平衡。
一个强化学习系统通常包含以下五个核心组件:
组件 | 含义 |
|---|---|
Agent(智能体) | 学习者或决策者 |
Environment(环境) | 智能体所处的世界 |
State(状态) | 当前环境的描述 |
Action(动作) | 智能体可执行的操作 |
Reward(奖励) | 执行动作后的反馈信号 |
学习的目标是找到一个最优策略 π,使得智能体获得的累计奖励最大化:

通过学习一个“状态-动作”价值函数 ( Q(s,a) ),估计在状态 s 下执行动作 a 的期望奖励。
代表算法:
直接学习一个策略函数 π(a|s),即在状态 s 下选择动作 a 的概率。
代表算法:
结合了上述两种思想:Actor 负责输出策略,Critic 负责评估动作的好坏。 代表算法有:A2C、A3C、DDPG 等。
强化学习在需要“长期决策”的问题上展现出巨大潜力。

尽管强化学习成果显著,但在现实落地中仍面临以下难题:
现代研究趋势正在融合不同学习范式。例如:
这类方法在自动驾驶、智能机器人中展现出极大潜力。

本文介绍了两种重要的机器学习方法:
两者在现代人工智能中的地位举足轻重,既是理论研究的热点,也是实际应用的关键支撑。