前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >可扩展机器学习——概述

可扩展机器学习——概述

作者头像
felixzhao
发布于 2018-03-20 05:24:37
发布于 2018-03-20 05:24:37
1.1K0
举报
文章被收录于专栏:null的专栏null的专栏

注:这是一份学习笔记,记录的是参考文献中的可扩展机器学习的一些内容,英文的PPT可见参考文献的链接。这个只是自己的学习笔记,对原来教程中的内容进行了梳理,有些图也是引用的原来的教程,若内容上有任何错误,希望与我联系,若内容有侵权,同样也希望告知,我会尽快删除。

可扩展机器学习系列主要包括以下几个部分:

  • 概述
  • Spark分布式处理
  • 线性回归(linear Regression)
  • 梯度下降(Gradient Descent)
  • 分类——点击率预测(Click-through Rate Prediction)
  • 神经科学

一、Overview

1、处理大规模数据集

对于不断扩大的数据规模主要有两种不同的处理方法:

  • 向上扩展(Scale-up):采用更大规模的机器,如下图所示

优点:对于中等规模的问题速度会很快

缺点:1、特定硬件的价格会比较贵;2、通过升级硬件的方法会达到一个上限。

  • 向外扩展(Scale-out):采用分布式的计算方法,如下图所示

优点:仅利用一些常用的硬件便能解决大规模问题

缺点:1、需要处理网络通信的问题;2、增加了一些软件的复杂度。

2、机器学习

2.1、机器学习的定义

机器学习是一种构建和学习的方法,从数据中学习并通过数据进行预测。

Constructing and studying methods that learn from and make predictions on data.

2.2、机器学习的应用

  • 人脸识别(Face Recognition)
  • 链路预测(Link Prediction)
  • 文本分类(Text Classification)
  • 蛋白质结构预测(Protein Structure Prediction)
  • ……

2.3、机器学习中的术语

在机器学习中有一些专业的术语,常见的如下:

  • 观测数据:主要是用于训练和测试机器学习算法的样本
  • 特征:用于表征观测数据的一些属性
  • 标签:给观测样本标记的数值或者类别
  • 训练和测试数据:用于训练和评估算法的观测样本

2.4、机器学习算法的分类

在各种机器学习算法中,主要可以分为监督学习(Supervised Learning)和非监督学习(Unsupervised Learning)。

  • 监督学习:从带有标签的观测样本学习。监督学习算法通过观测样本学习到从样本到标签之间的映射。根据label是离散的还是连续的,监督学习又可以分为:分类(Classification)和回归(Regression)。
  • 非监督学习:从不带标签的观测样本学习。非监督学习主要是学习数据中隐藏的结构以及隐藏的模式。非监督学习又可以分为:聚类(Clustering)和降维(Dimensionality Reduction)。

2.5、典型的机器学习流程

2.5.1、监督学习的过程

在监督学习中,主要包括获取数据、特征提取、监督学习、评价和预测。过程可见下图:

学习的目的是为了学习到模型用于预测,而评价的目的是为了学习到较好的模型。对于一个具体的分类问题,如垃圾邮件的分类,欺诈检测,人脸识别,链路预测,点击率预估等等。

2.5.2、无监督学习的过程

对于无监督学习,无需通过样本标签训练模型,主要包括获取数据、特征提取和无监督学习过程,具体无监督学习过程如下所示:

2.5.3、垃圾邮件的分类问题

下面是垃圾邮件的分类问题。

  • Obtain Raw Data:获取包括一组带标签的观测样本
  • Feature Extraction:特征提取是指利用一组向量,向量是由实数组成,通常称为属性,去表示观测样本。

对于机器学习算法来说,成功与否通常取决于对观测样本的表示,即如何选择较好的特征表示。

如在垃圾邮件的分类任务中(文本分类),可以使用Bag of Words。简单来讲,Bag of Words是将文本使用一串向量表示,每一个位置上表示的是字典(Vocabulary)中的每个词,若该词在文本中出现,则在该位置上标记为11,否则标记为00。

词袋模型中的向量长度取决于字典的大小。

具体的过程可由下图表示:

  • Supervised Learning:在监督学习阶段是通过训练数据训练一个模型,主要的监督学习算法包括:Logistic回归(Logistic Regression, LR),支持向量机(Support Vector Machine, SVM),决策树(Decision Tree, DT),随机森林(Random Forest, RF)等等。对于大规模的数据集,学习的过程通常需要迭代计算。
  • Evaluation:评价一个分类器是否是一个好的分类器是指该分类器是否能够在未知的数据集上表现得较好,这便称为泛化能力(Generalization ability)。通常,我们将样本分为训练数据集(Training Data Set)和测试数据集(Testing Data Set),训练数据集主要用于训练模型,测试数据集主要用于评价模型的好坏。

在这个过程中,要避免模型的过拟合(overfitting),过拟合是指训练出来的模型较为复杂,能够在训练数据集上表现的很好,这种情况下极容易发生过拟合的情况,一般,我们希望模型要尽可能的简单,这样能够具有更好的泛化能力,复杂的模型与简单的模型如下图所示:

  • Prediction:将训练好的模型应用于新的数据。
2.5.4、分类算法的流程

对于一个具体的分类问题,为了构建一个分类学习算法,首先需要对数据集进行分类,分为训练集合测试集,训练集用于训练分类算法模型,测试集用于测试训练好的分类学习算法的性能,对于训练好的分类算法,我们的最终目的是将该算法应用在具体的任务中,因此对于新的数据集的预测是构建分类算法的根本目的,对于分类算法的具体的流程可由下图表示:

3、度量时间和空间复杂度的大OO标记

参考文献

scalable-machine-learning

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【机器学习】机器学习系列:(一)机器学习基础
本章我们简要介绍下机器学习(Machine Learning)的基本概念。主要介绍机器学习算法的应用,监督学习和无监督学习(supervised-unsupervised learning)的应用场景,训练和测试数据的用法,学习效果评估方式。最后,对scikit-learn进行一些简单的介绍。 自计算机问世以来,计算机可以学习和模仿人类智慧的观点,可谓“引无数英雄竞折腰”。像Arthur C. Clarke的HAL(Heuristically programmed ALgorithmi
小莹莹
2018/04/23
1.8K0
【机器学习】机器学习系列:(一)机器学习基础
可扩展机器学习——概述
注:这是一份学习笔记,记录的是参考文献中的可扩展机器学习的一些内容,英文的PPT可见参考文献的链接。这个只是自己的学习笔记,对原来教程中的内容进行了梳理,有些图也是引用的原来的教程,若内容上有任何错误,希望与我联系,若内容有侵权,同样也希望告知,我会尽快删除。
felixzhao
2019/02/13
6260
图解机器学习 | 机器学习基础知识
教程地址:http://www.showmeai.tech/tutorials/34
ShowMeAI
2022/03/09
7970
图解机器学习 | 机器学习基础知识
机器学习工程师必知的十大算法
作者 James Le ,译者 尚剑 毫无疑问,机器学习/人工智能的子领域在过去几年越来越受欢迎。目前大数据在科技行业已经炙手可热,而基于大量数据来进行预测或者得出建议的机器学习无疑是非常强大的。一些最常见的机器学习例子,比如Netflix的算法可以根据你以前看过的电影来进行电影推荐,而Amazon的算法则可以根据你以前买过的书来推荐书籍。 所以如果你想了解更多有关机器学习的内容,那么你该如何入门?对于我来说,我的入门课程是我在哥本哈根出国留学时参加的人工智能课。当时我的讲师是丹麦技术大学(Technica
刀刀老高
2018/04/10
7670
机器学习工程师必知的十大算法
【陆勤践行】机器学习算法概览
想入门机器学习的同学,经常会去看一些入门书,比如《集体智慧编程》、《机器学习实战》、《数据挖掘》、《推荐系统实践》等。看书的过程中,经常性的会看到如下样例: 垃圾邮件识别 信用卡交易异常检测 手写数字识别 语音识别 人脸检测 商品推荐 疾病检测(根据以往病例记录,确定病人是否患病) 股票预测 用户分类(根据用户行为判断该用户是否会转化为付费用户) 形状检测(根据用户在手写板上上画得形状,确定用户画的到底是什么形状) 因此,当再有人问ML是什么的时候,就可以说这个是ML可以handle的,这个问题ML也可以h
陆勤_数据人网
2018/02/26
5250
【技术必备】解读 2016 年十大机器学习算法及其应用
【新智元导读】 机器学习领域都有哪些常用算法?本文带来盘点。 毫无疑问,过去两年中,机器学习和人工智能的普及度得到了大幅提升。 如果你想学习机器算法,要从何下手呢?以我为例,我是在哥本哈根留学期间,学习AI课程入门的。我们用的教科书是一本AI经典:《Peter Norvig’s Artificial Intelligence — A Modern Approach》。最近我在继续学习这些,包括在旧金山听了几个关于深度学习的技术演讲,参加机器学习大会上。六月份,我注册了Udacity的Intro to Mac
新智元
2018/03/26
6690
【技术必备】解读 2016 年十大机器学习算法及其应用
算法入门(一) -- 机器学习基础大纲
我们常说的算法到底是什么?机器学习又是什么?模型起到了什么作用?相信很多小伙伴在刚开始学习的时候都有过这样的疑问,接下来我们就以这三个问题开头,开启我们的算法修仙之路。
万事可爱^
2025/01/23
1230
算法入门(一) -- 机器学习基础大纲
图解 72 个机器学习基础知识点
来源:尤而小屋 R语言统计与绘图本文约5500字,建议阅读11分钟本文梳理了机器学习最常见的知识要点。 图解机器学习算法系列 以图解的生动方式,阐述机器学习核心知识 & 重要模型,并通过代码讲通应用细节。 1. 机器学习概述 1)什么是机器学习 人工智能(Artificial intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。它是一个笼统而宽泛的概念,人工智能的最终目标是使计算机能够模拟人的思维方式和行为。 大概在上世纪50年代,人工智能开始
数据派THU
2023/03/29
8110
图解 72 个机器学习基础知识点
机器学习的通俗讲解
机器学习人人都在谈论,但除了老师们知根知底外,只有很少的人能说清楚怎么回事。如果阅读网上关于机器学习的文章,你很可能会遇到两种情况:充斥各种定理的厚重学术三部曲(我搞定半个定理都够呛),或是关于人工智能、数据科学魔法以及未来工作的天花乱坠的故事。
用户9861443
2022/12/07
3320
机器学习的通俗讲解
R语言机器学习系列教程
localfile://path?media/17293066333253/17293066828167.jpg
生信学习者
2024/10/19
3100
R语言机器学习系列教程
机器学习该如何入门
引言   可能你对这个名字叫“机器学习”的家伙不是特别的了解,但是相信用过iPhone的同学都知道iPhone的语音助手Siri,它能帮你打电话,查看天气等等;相信大家尤其是美女童鞋都用过美颜相机,它能自动化的给我们拍出更漂亮的照片;逛京东淘宝的时候,细心的童鞋应该也会发现它们会有一个栏目“猜你喜欢”;最近异军突起的新闻客户端软件今日头条,它们就是会根据分析你的日常喜好给每个人推荐不同的新闻……没错,这些功能背后的核心就是今天要介绍的主题:机器学习。 什么是机器学习   对于这个问题的解释,说实话我很有压力
机器学习算法工程师
2018/03/06
7880
机器学习该如何入门
分享 | 震惊,机器学习居然有这些事
机器学习是一类算法的总称,这些算法企图从大量历史数据中挖掘出其中隐含的规律,并用于预测或者分类,更具体的说,机器学习可以看作是一个函数,输入是样本数据,输出是期望的结果,只是这个函数过于复杂,以至于不太方便形式化表达。
潘永斌
2019/10/08
5090
分享 | 震惊,机器学习居然有这些事
从零开始机器学习—简介
首先给大家安利一下这个课程:https://cloudstudio.net/courses/17278212426874880
阶钟
2024/12/02
1730
从零开始机器学习—简介
机器学习相关概念
💥分类问题的典型应用场景如垃圾邮件识别就是一个2分类问题,使用相应的机器学习算法判定邮件属于垃圾邮件还是非垃圾邮件。如下图所示:
用户10950404
2024/07/30
980
机器学习相关概念
可扩展机器学习——线性回归(linear Regression)
注:这是一份学习笔记,记录的是参考文献中的可扩展机器学习的一些内容,英文的PPT可见参考文献的链接。这个只是自己的学习笔记,对原来教程中的内容进行了梳理,有些图也是引用的原来的教程,若内容上有任何错误,希望与我联系,若内容有侵权,同样也希望告知,我会尽快删除。这部分本应该加上实验的部分,实验的部分在后期有时间再补上。 可扩展机器学习系列主要包括以下几个部分: 概述 - Spark分布式处理 - 线性回归(linear Regression) - 梯度下降(Gradient Descent)
felixzhao
2018/03/20
9860
可扩展机器学习——线性回归(linear Regression)
机器学习分类
监督学习典型模型:Linear regression、Logistic regression、SVM、Neural network等
@小森
2024/03/15
1590
机器学习分类
写给开发者的机器学习指南(二)
在机器学习领域有两种主要的学习方式,即监督学习和无监督学习。当您想在您的应用程序中使用机器学习时,需要简要说明下,因为选择正确的机器学习方法和算法是一个重要但有时也是一个繁琐的过程。
哒呵呵
2018/08/06
3830
写给开发者的机器学习指南(二)
机器学习入门基础知识汇总
机器学习(Machine Learning,简称 ML)是人工智能(AI)领域的重要组成部分,涉及使用算法从数据中提取模式并进行预测。随着数据量的快速增长和计算能力的提升,机器学习在各个领域都有着广泛的应用,如金融、医疗、自动驾驶等。在学习机器学习的过程中,掌握一些基础知识是非常重要的。本文将介绍机器学习的核心概念、常见算法以及如何在实际问题中应用这些知识。
一键难忘
2025/01/25
2510
Python 数据科学手册 5.1 什么是机器学习
在我们查看机器学习方法的各种细节之前,先了解什么是机器学习,什么不是。机器学习通常被归类为人工智能的一个子领域,但是我发现分类往往会首先产生误导。机器学习的研究肯定来自于这一背景下的研究,但在机器学习方法的数据科学应用中,将机器学习视为构建数据模型的手段更有帮助。
ApacheCN_飞龙
2022/12/01
2810
机器学习(四)机器学习分类及场景应用
监督学习(supervised learning)从训练数据(training data)集合中学习模型,对测试数据(test data)进行预测。
Maynor
2023/10/28
1.4K0
机器学习(四)机器学习分类及场景应用
相关推荐
【机器学习】机器学习系列:(一)机器学习基础
更多 >
LV.2
这个人很懒,什么都没有留下~
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档