前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >DataWhale 吃瓜日记 西瓜书第一章

DataWhale 吃瓜日记 西瓜书第一章

原创
作者头像
TomoriNao
发布2023-12-12 01:16:51
1490
发布2023-12-12 01:16:51
举报
文章被收录于专栏:每月技术成长

写作目的

记录学习西瓜书的经过、总结、DataWhale 打卡

基础概念

  • 数据集 (data set) 若干个“样本”组成的数据集合(sample)
  • 样本 关于一个事件或对象的描述
  • 属性(attribute)/ 特征(feature) 反映事件或对象在某方面的表现或性质的事项
  • 属性空间(attribute space)/ 样本空间(sample space) 属性组成的空间
  • 特征向量(feature vector) 一个样本可以表示为一个由若干属性组成的向量,该向量即为特征向量
  • 学习(learning)/ 训练(training) 从数据中学得模型的过程
  • 训练数据(training data) 训练过程中使用的数据
  • 训练样本(training sample) 训练数据中的样本
  • 训练集(training set) 训练样本组成的集合
  • 标记(label) 关于示例结果的信息
  • 样例(example) 拥有标记信息的示例
  • 分类学习任务(classification) 模型预测的结果为离散值
  • 回归学习任务(regression) 模型预测的结果为连续值
  • 预测任务 一般地,预测任务是希望通过对训练集进行学习,建立一个从输出空间 X 到输出空间 Y 的映射 f :X -> Y
  • 测试(testing) 在学得模型后,使用其进行预测的过程
  • 测试样本(testing sample) 被预测的样本
  • 聚类(clustering) 将训练集中的数据分成若干组,每组称为一个簇(cluster),在聚类学习过程中使用的训练样本通常不含标记信息
  • 监督学习(supervised learing)/ 无监督学习(unsupervised learning) 根据训练数据是否包含标记信息,可分为“监督学习”和“无监督学习”,“分类”和“回归”是“监督学习”的代表,“聚类”是“无监督学习”的代表
  • 泛化(generatization)能力 学得模型适用于新样本的能力(具有强泛化能力的模型能够很好地适用于整个样本空间)
  • 独立同分布(independdent and identically distributeed) 通常假设样本空间中全体样本服从一个未知的分布(distribution)D,人们获得的每个样本都是独立地从这个分布上采集获得的
  • 归纳(induction)/ 演绎(deduction) “归纳”是从特殊到一般的“泛化”过程,即从具体的事实归结出一般性规律 “演绎”是从一般到特殊的“特化”过程
  • 归纳学习(inductive learning) “从样例中学习”的过程 广义的归纳学习相当于从样例中学习,而狭义的归纳学习则要求从训练数据中习得“概念”,因此又称“概念学习”或“概念形成”
  • 版本空间(version space) 一个与训练集一致的“假设集合”
  • 归纳偏好(inductive bias) 机器学习算法在学习过程中对某种类型假设的偏好(若无偏好,则无法产生确定的学习结果,也因此,相同算法,在训练相同数据集后,产生的模型是效果相似的,可以被其他人复现)
  • “没有免费的午餐”定理(No Free Lunch Theorem,简称 NFL ) 对于任意两个学习算法,其期望性能是相同的,也即互有长处

重要结论

  • 一般而言,训练样本越多,得到的关于样本空间分布 D 的信息越多,越有可能通过学习获得具有强泛化能力的模型(训练集越大,训练出来的模型效果一般越好)
  • 我们可以将学习过程看作一个在所有假设(hypothesis)组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”(fit)的假设。假设的表示一旦确定,假设空间及其规模大小就确定了
  • 可以有许多策略对假设空间进行搜索,搜索过程可以不断删除与正例不一致的假设、和(或)与反例一致的假设。最终得到与训练集一致(即能对所有训练样本进行正确判断)的假设
  • 归纳偏好可以看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的“价值观”
  • 事实上,归纳偏好对应了学习算法本身对于“什么样的模型更好”的假设。在具体现实问题中,算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能

学习总结

  • 西瓜书第一章包含很多的概念,也有一些比较重要的结论,只有先捋清楚基础概念才能顺利理解“机器学习到底是什么”
  • 在学习过程中先看的南瓜书 ,再看的西瓜书,可以看出,西瓜书的概念更多,有更加细致的介绍,而南瓜书则偏向对西瓜书的公式进行推导,可以先看南瓜书再看西瓜书,遇到不懂的名词后会更加有兴趣了解具体情况,但这样的话看起来比较难受,因为公式太多……还是应当先看西瓜书再看南瓜书
  • 实际上,书上的公式也没有那么难推导,自己思考+参考南瓜书还是能够理解的,不要让畏难情绪压倒自己

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 写作目的
  • 基础概念
  • 重要结论
  • 学习总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档