首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器学习笔记

基本术语

数据集(data set): 一组数据的集合

样本/示例(instance/sample):数据集中的一个事件或对象

属性/特征(attribute/feature):反映事件或对象在某方面的表现或性质的事项

属性值(attribute value):属性上的取值

属性空间/样本空间/输入空间(attribute space/sample space):属性张成的空间

特征向量(feature vector):因为空间每个点对应一个坐标向量,所以也将一个示例称为“特征向量”

令D = 表示包含m个示例的数据集,每个示例d个属性描述,则每个示例xi=(xi1; xi2; ...;xid)是d维样本空间X中的一个向量,xi∈X,其中xij是xi在第j个属性上的取值,d称为样本xi的“维数”(dimensionality)。

学习/训练(learning/training):从数据中学得模型的过程,这个过程通过执行某个学习算法来完成

训练过程中使用的数据称为“训练数据”(training data),其中每个样本称为一个“训练样本”(training sample),训练样本组成的集合称为“训练集”(training set)。学得模型对应了关于数据的某种潜在的规律,因此亦称“假设”(hypothesis);这种潜在规律自身则称为“真相”或“真实”(groud-truth),学习的过程就是为了找出或逼近真相。

拥有标记信息的实例称为样例(example),一般用(xi, y)表示第i个样例,其中yi∈Y是示例xi的标记,Y是所有标记的集合,亦称“标记空间”(label space)或“输出空间”

如果预测的是离散值,则该类学习任务称为“分类”(classification);

若预测的为连续值,则该类学习任务称为“回归”(regression);

对只涉及两个类别的“二分类”(binary classification)任务,通常称其中一个类为“正类”(positive class),另一个称为“反类”(negative class);涉及多个类别时,则称为“多分类”(multi-class classification)任务。

一般,预测任务是希望通过对训练集{(x1, y1), (x2, y2), ..., (xm, ym)}进行学习,从而建立一个从输入空间X到输出空间Y的映射f:XY

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171221G0YWBC00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券