首先给大家安利一下这个课程:https://cloudstudio.net/courses/17278212426874880
机器学习的定义
机器学习是一种让计算机通过数据学习的方法。传统的编程方式是人类编写规则,计算机按照这些规则执行任务。而机器学习则是让计算机通过分析大量数据,自动找出规则和模式,从而完成任务。
人工智能、机器学习、深度学习三者之间是逐层包含的关系:
基本术语
- 模型(model):
- 模型是用来对输入数据进行预测或分类的数学函数,不同类型的模型适用于不同类型的数据和问题。选择合适的模型并对其进行调参和优化是机器学习中非常重要的环节。
- 样本(sample)、示例(instance):所研究对象的一个个体。相当于统计学中的实例(example,instance)
- 样本集 (sample set)、数据集(data set):若干样本构成的集合;该集合的每个元素就是一个样本。
- 训练数据:
- 机器学习中的训练数据是用于训练机器学习算法的初始数据集,也称为训练集或学习集。训练数据是一组用于拟合机器学习模型的参数的样本,这些样本通常经过预处理(如人工标注)并具有相对稳妥、精确的特征描述。训练数据的主要目的是帮助机器学习算法理解数据特征和模式,从而在给定输入时能够准确预测输出结果。
- 特征空间(feature space):
- 分别以每个特征作为一个坐标轴,所有特征所在坐标轴张成一个用于描述不同样本的空间,称为特征空间;
- 在该空间中,每个具体样本就对应空间的一个点,在这个意义下,也称样本为样本点;
- 每个样本点对应特征空间的一个向量,称为特征向量;
- 特征的数目即为特征空间的维数。
- 测试样本”(testing sample):学得模型后,使用该模型进行预测的过程称为“ 测试”(testing), 被预测的样本称为“测试样本”。
- 标记(label):
- 有前面的样本数据显然是不够的,要建立这样的关于“预测”(prediction) 的模型,我们需获得训练样本的“结果”信息,例如“((色泽=青绿;根蒂=蜷缩;敲声= =浊响),好瓜)”.这里关于示例结果的信息,例如“好瓜”,称为“标记”(label); 拥有了标记信息的示例,则称为“样例”(example)。
基本步骤
- 决定问题:大多数机器学习过程都是从提出一个简单的条件程序或基于规则的引擎无法回答的问题开始的。 这些问题通常围绕基于数据集合的预测展开。
- 收集和准备数据。为了能够回答你的问题,你需要数据。数据的质量(有时是数量)将决定你回答最初问题的能力。可视化数据是这个阶段的一个重要方面。此阶段还包括将数据拆分为训练和测试组以构建模型。
- 选择一种训练方法。根据你的问题和数据的性质,你需要选择如何训练模型以最好地反映你的数据并对其进行准确预测。这是你的ML过程的一部分,需要特定的专业知识,并且通常需要大量的实验。
- 训练模型。使用你的训练数据,你将使用各种算法来训练模型以识别数据中的模式。该模型可能会利用可以调整的内部权重来使数据的某些部分优于其他部分,从而构建更好的模型。
- 评估模型。你使用收集到的集合中从未见过的数据(你的测试数据)来查看模型的性能。
- 参数调整。根据模型的性能,你可以使用不同的参数或变量重做该过程,这些参数或变量控制用于训练模型的算法的行为。
- 预测。使用新输入来测试模型的准确性。
基本类型
按学习的方式来划分,机器学习主要包括:监督学习,无监督学习和强化学习。
1. 监督学习 (Supervised Learning)
监督学习是指在训练过程中使用带有标注的数据集。标注数据集包含输入特征和对应的输出标签。模型通过学习输入特征和输出标签之间的映射关系来进行训练。常见的有监督学习算法包括线性回归、逻辑回归、支持向量机(SVM)、决策树、随机森林、梯度提升树(GBDT)、神经网络等。
在这种学习方式中,我们提供给计算机一组带有标签的数据,即每个数据样本都有一个已知的结果。计算机通过这些数据学习如何预测新数据的结果。
eg:
- 分类问题:垃圾邮件过滤。给定一组电子邮件及其标签(垃圾邮件或正常邮件),计算机学习如何识别新邮件是否是垃圾邮件。
- 回归问题:房价预测。给定一组房屋特征(如面积、位置、年龄等)及其价格,计算机学习如何预测新房屋的价格。
2. 无监督学习 (Unsupervised Learning)
无监督学习是指在训练过程中不使用标注数据集。模型通过学习数据的内在结构来进行训练。常见的无监督学习算法包括聚类(K-means、层次聚类)、降维(PCA、t-SNE)、关联规则学习等。
无监督学习中,数据没有标签。计算机需要自己找出数据中的模式和结构。
eg:
- 聚类问题:客户分群。给定一组客户数据(如购买历史、年龄、地理位置等),计算机将客户分成不同的群体,每个群体内的客户具有相似的特征。
- 降维问题:数据可视化。将高维数据(如多个特征的数据)降维到二维或三维,以便更容易理解和可视化。
3. 强化学习 (Reinforcement Learning)
强化学习是通过与环境互动来学习的方法。计算机(称为代理)在环境中执行动作,并根据反馈(奖励或惩罚)来调整其行为。
eg:
- 游戏AI:计算机通过不断尝试和失败,学习如何在游戏中获胜。
- 机器人控制:机器人通过尝试不同的动作,学习如何在复杂环境中导航。