基本术语
数据集(data set): 一组数据的集合
样本/示例(instance/sample):数据集中的一个事件或对象
属性/特征(attribute/feature):反映事件或对象在某方面的表现或性质的事项
属性值(attribute value):属性上的取值
属性空间/样本空间/输入空间(attribute space/sample space):属性张成的空间
特征向量(feature vector):因为空间每个点对应一个坐标向量,所以也将一个示例称为“特征向量”
令D = 表示包含m个示例的数据集,每个示例d个属性描述,则每个示例xi=(xi1; xi2; ...;xid)是d维样本空间X中的一个向量,xi∈X,其中xij是xi在第j个属性上的取值,d称为样本xi的“维数”(dimensionality)。
学习/训练(learning/training):从数据中学得模型的过程,这个过程通过执行某个学习算法来完成
训练过程中使用的数据称为“训练数据”(training data),其中每个样本称为一个“训练样本”(training sample),训练样本组成的集合称为“训练集”(training set)。学得模型对应了关于数据的某种潜在的规律,因此亦称“假设”(hypothesis);这种潜在规律自身则称为“真相”或“真实”(groud-truth),学习的过程就是为了找出或逼近真相。
拥有标记信息的实例称为样例(example),一般用(xi, y)表示第i个样例,其中yi∈Y是示例xi的标记,Y是所有标记的集合,亦称“标记空间”(label space)或“输出空间”
如果预测的是离散值,则该类学习任务称为“分类”(classification);
若预测的为连续值,则该类学习任务称为“回归”(regression);
对只涉及两个类别的“二分类”(binary classification)任务,通常称其中一个类为“正类”(positive class),另一个称为“反类”(negative class);涉及多个类别时,则称为“多分类”(multi-class classification)任务。
一般,预测任务是希望通过对训练集{(x1, y1), (x2, y2), ..., (xm, ym)}进行学习,从而建立一个从输入空间X到输出空间Y的映射f:XY
领取专属 10元无门槛券
私享最新 技术干货