注:这是一份学习笔记,记录的是参考文献中的可扩展机器学习的一些内容,英文的PPT可见参考文献的链接。这个只是自己的学习笔记,对原来教程中的内容进行了梳理,有些图也是引用的原来的教程,若内容上有任何错误,希望与我联系,若内容有侵权,同样也希望告知,我会尽快删除。
可扩展机器学习系列主要包括以下几个部分:
对于不断扩大的数据规模主要有两种不同的处理方法:
优点:对于中等规模的问题速度会很快
缺点:1、特定硬件的价格会比较贵;2、通过升级硬件的方法会达到一个上限。
优点:仅利用一些常用的硬件便能解决大规模问题
缺点:1、需要处理网络通信的问题;2、增加了一些软件的复杂度。
机器学习是一种构建和学习的方法,从数据中学习并通过数据进行预测。
Constructing and studying methods that learn from and make predictions on data.
在机器学习中有一些专业的术语,常见的如下:
在各种机器学习算法中,主要可以分为监督学习(Supervised Learning)和非监督学习(Unsupervised Learning)。
在监督学习中,主要包括获取数据、特征提取、监督学习、评价和预测。过程可见下图:
学习的目的是为了学习到模型用于预测,而评价的目的是为了学习到较好的模型。对于一个具体的分类问题,如垃圾邮件的分类,欺诈检测,人脸识别,链路预测,点击率预估等等。
对于无监督学习,无需通过样本标签训练模型,主要包括获取数据、特征提取和无监督学习过程,具体无监督学习过程如下所示:
下面是垃圾邮件的分类问题。
对于机器学习算法来说,成功与否通常取决于对观测样本的表示,即如何选择较好的特征表示。
如在垃圾邮件的分类任务中(文本分类),可以使用Bag of Words。简单来讲,Bag of Words是将文本使用一串向量表示,每一个位置上表示的是字典(Vocabulary)中的每个词,若该词在文本中出现,则在该位置上标记为11,否则标记为00。
词袋模型中的向量长度取决于字典的大小。
具体的过程可由下图表示:
在这个过程中,要避免模型的过拟合(overfitting),过拟合是指训练出来的模型较为复杂,能够在训练数据集上表现的很好,这种情况下极容易发生过拟合的情况,一般,我们希望模型要尽可能的简单,这样能够具有更好的泛化能力,复杂的模型与简单的模型如下图所示:
对于一个具体的分类问题,为了构建一个分类学习算法,首先需要对数据集进行分类,分为训练集合测试集,训练集用于训练分类算法模型,测试集用于测试训练好的分类学习算法的性能,对于训练好的分类算法,我们的最终目的是将该算法应用在具体的任务中,因此对于新的数据集的预测是构建分类算法的根本目的,对于分类算法的具体的流程可由下图表示:
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有