THU深圳研究院:大数据机器学习

故事尾音

发布于 2019-12-18 17:21:40

6110

发布于 2019-12-18 17:21:40

文章被收录于专栏：NLP算法工程师之路

课程介绍

B站视频：https://www.bilibili.com/video/av67224054

Lecture 1：引言

2012年Alnet在ImageNet上错误率大幅度下降
2016年3月Alphgo战胜人类围棋高手
机器学习设计概率论，凸分析，统计学等
数据挖掘主要使用机器学习进行分析数据，并使用数据库来管理数据
1980年，在CMU召开了第一次ICML会议，标志着机器学习的诞生

五本推荐的书：

统计学习方法
深度学习（花书）
模式识别与机器学习（PRML）
机器学习实战
机器学习（西瓜书）

Lecture 2：机器学习基本概念

监督学习和假设空间

监督学习目的是学习一个由输入到输出的映射，称为模型，模型集合就是假设空间。

学习三要素

三要素：模型+策略+最优化方法

策略

详细数据推导可参考这篇文章

损失函数：定义在单个训练样本的损失，也就是就算一个样本的损失
代价函数：定义在整个训练集整体的误差描述，也就是所有样本的误差的总和，也就是损失函数的总和。
经验风险：代价函数的平均，定义在训练集上，是局部的，是现实的，可求的。
期望风险：表示的是决策函数对所有的样本的预测能力的大小，是全局的，是理想化的，不可求的。
经验风险最小化：极大似然估计是经验风险最小化的一个例子，当模型是条件概率分布，损失函数是对数损失函数的时候，经验风险最小化等价于极大似然估计。样本容量很小，经验风险最小化的效果未必好，会产生过拟合。
结构风险最小化：经验风险＋正则化项表示结构风险，是防止过拟合的策略。。贝叶斯的最大后验概率估计就是结构风险最小化的例子。当模型是条件概率分布，损失函数是对数损失函数、模型复杂度由模型的先验概率表示时，结构风险最小化等价于最大后验概率估计。

奥卡姆剃刀定理

定理：简单的是最好的

没有免费的午餐定理

定理：没有一种机器学习算法是适用于所有情况的。这个定理本质上就是告诉我们不要奢望能找到一种算法对所有问题都适用。注意，这个定理有个前提：“对于所有机器学习问题，且所有问题同等重要”。而我们实际情况不是这样，我们在实际中往往更关心的是一个特定的机器学习问题，对于特定的问题，特定的机器学习算法效果自然比瞎猜更好。

训练误差和测试误差

机器学习模型在训练数据集上表现出的误差叫做训练误差，在任意一个测试数据样本上表现出的误差的期望值叫做泛化误差。统计学习理论的一个假设是：训练数据集和测试数据集里的每一个数据样本都是从同一个概率分布中相互独立地生成出的（独立同分布假设）。一个重要结论是：训练误差的降低不一定意味着泛化误差的降低。机器学习既需要降低训练误差，又需要降低泛化误差。