Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >机器学习入门(一)

机器学习入门(一)

作者头像
Criss@陈磊
发布于 2020-09-25 03:31:16
发布于 2020-09-25 03:31:16
3660
举报
文章被收录于专栏:测试技术圈测试技术圈

很多人都在谈机器学习,无论是专业从业者还是业余爱好者都必须弄清楚一个问题:什么是机器学习?

01

机器学习的意义

在开始机器学习的介绍之前,我们先来讨论一个问题:为什么要让机器去学习,机器学习的意义是什么?

小明想买一辆车。他上网查阅了很多信息了解到一辆新车的价格大概20000美元,用过一年的价格19000美元,用过两年的价格在18000美元。所以小明得出一个结论:车的价格和使用年限有关,多使用一年降1000美元,但是不可能低于10000美元。从机器学习的角度看,小明使用到了回归的思想。他基于历史数据预测了一个数值(价格),生活中这种思想的使用无处不在,比如从二手网站购买一个旧的iphone。

02

机器学习三要素

  • 数据

如果想要检测垃圾邮件,首先需要垃圾邮件的样本;如果想要预测股票价格,首先要得到股票的历史价格;如果想要了解用户的喜好,那么需要解析他们在网站上的行为。数据越多样化,预测的效果越好。获取数据的方式有两种:手动和自动。手动收集到的数据,错误较多且耗时长,这部分数据会贵重一些,自动收集的数据相对便宜。一些科技公司会利用他们的客户免费帮助给数据标签,比如我们经常见到的验证码,选择包含人行道的图片。

  • 特征

特征可能是车的行驶里程、用户性别、股票价格或者文字中单词的频率。例如Excel表中存储的数据对应的特征就是它的列表项,比如用户信息表中的身高、体重、性别等。但是如果换成100GB的图片数据呢,显然不能把每一个像素都当作特征处理。这就是为什么选择出正确的特征会比机器学习流程中其他部分更耗时的原因。这一过程更容易出现错误,因为人们更倾向于选择“自己喜欢的”或者“看起来更重要的”。

  • 算法

任何的问题都可以用不同的方法解决。对于机器学习来说,不同的算法会影响到模型最终的预测效果、性能和大小。但是要明确一点:数据很差,再好的算法也无济于事,与其过度地关注算法准确性,不如尝试获取更好的数据。

03

机器学习流程

  • 准备数据集

训练数据是指构建机器学习模型使用到的数据集。某些情况下,训练数据会被打标签,这些标签代表了模型需要识别的特征或者类型。未打标签的情况下,模型需要自行提取这类数据的特征并进行分类。无论哪种情况,都需要充分的准备好数据,这些数据必须随机,且需要剔除一些可能使模型出现偏差的脏数据。最后这些数据被分为两个子集:训练子集(将用于训练应用程序)和评估子集(用于测试和优化应用程序)。

  • 选择算法

算法的类型取决于训练数据有无标签、数据量和要解决问题的类型。

有标签数据使用的机器学习算法的常见类型包括:回归算法、分类算法

无标签数据使用的机器学习算法的常见类型包括:聚类算法、关联算法

  • 训练模型

模型训练是一个反复的过程。这个过程中需要不断地进行参数调节,直到达到比较好的学习效果。经过训练且相对准确的算法才是机器学习模型,需要注意这个重要区别,因为“算法”和“模型”经常会被混淆使用。

  • 使用和优化模型

最后一步是将模型应用于新数据。最好的情况是,随着时间的推移,模型将提高准确性和有效性。实际中,随着时间的推移,模型的效果会出现一些负面的偏差,需要人为干预矫正,例如重训模型等。

04

机器学习与人工智能

很多时候很多人都会将这两个概念混淆使用。下面明确一下:

人工智能:整个知识领域的名称。

机器学习:是人工智能的一部分。重要的部分,但不是唯一的部分。

神经网络:机器学习类型之一。比较受欢迎,但是还有其他类型。

深度学习:构建,训练和使用神经网络的方法。

05

机器学习知识结构

一张图概括,有兴趣的同学可以继续关注后续的文章。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-09-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 质问 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【机器学习】深入探索机器学习:利用机器学习探索股票价格预测的新路径
支持向量机(SVM): 作为一种基于统计学习的分类器,SVM在股票价格预测中得到了广泛应用。研究表明,在适当的特征工程和优化参数的情况下,SVM能够具有良好的预测能力。然而,由于股票价格波动性较大,预测仍存在一定的难度
Eternity._
2024/06/14
3180
【机器学习】深入探索机器学习:利用机器学习探索股票价格预测的新路径
不谈高级原理,只用简单的语言来聊聊机器学习
机器学习人人都在谈论,但除了老师们知根知底外,只有很少的人能说清楚怎么回事。如果阅读网上关于机器学习的文章,你很可能会遇到两种情况:充斥各种定理的厚重学术三部曲(我搞定半个定理都够呛),或是关于人工智能、数据科学魔法以及未来工作的天花乱坠的故事。
苏州程序大白
2022/04/14
2560
不谈高级原理,只用简单的语言来聊聊机器学习
AI/ML 基础知识与常用术语全解析
在当今科技飞速发展的时代,人工智能(AI)和机器学习(ML)已经成为了热门话题。从智能手机中的语音助手到自动驾驶汽车,AI 和 ML 技术正在改变着我们的生活方式。然而,对于许多人来说,AI 和 ML 仍然是神秘而复杂的领域。本文将详细介绍 AI/ML 的基础知识和常用术语,帮助读者更好地理解这一领域。
Pocker_Spades_A
2024/12/24
1840
AI/ML 基础知识与常用术语全解析
《Scikit-Learn与TensorFlow机器学习实用指南》 第1章 机器学习概览什么是机器学习?为什么使用机器学习?机器学习系统的类型批量和线上学习基于实例vs基于模型学习机器学习的主要挑战测
---- 本书翻译已加入ApachCN的开源协作项目,见 https://github.com/apachecn/hands_on_Ml_with_Sklearn_and_TF/tree/dev/docs。 我负责翻译的是第一章和第二章。 ApacheCN_飞龙转载了后面的章节,大家可以去他的页面查看,《第3章 分类》链接 ---- 下载本书和代码:https://www.jianshu.com/p/9efbae6dbf8e 本书自2017年4月9日出版,便长期占据美国亚马逊Compu
SeanCheney
2018/04/24
1.8K0
《Scikit-Learn与TensorFlow机器学习实用指南》 第1章 机器学习概览什么是机器学习?为什么使用机器学习?机器学习系统的类型批量和线上学习基于实例vs基于模型学习机器学习的主要挑战测
【机器学习基础】机器学习概述与实践基础
机器学习(Machine Learning)是一个研究计算机怎样模拟或实现人类的学习行为,它以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身性能的方向。   机器学习是一门多领域交叉学科,涉及概率论、统计学、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习近年来的发展导致了人工智能的巨大飞跃。机器学习和深度学习需要大量的数据来工作,而这些数据正被数十亿的传感器收集到,总的来说,人工智能为为机器赋予人的智能,机器学习是一种实现人工智能的方法,深度学习是一种实现机器学习的技术。
Francek Chen
2025/01/23
1850
【机器学习基础】机器学习概述与实践基础
机器学习入门指南:如何构建智能预测模型
随着人工智能的快速发展,机器学习(Machine Learning)已经成为技术领域的热点话题。无论是推荐系统、语音识别、自动驾驶汽车,还是自然语言处理,机器学习的应用随处可见。那么,机器学习究竟是什么呢?本文将从基础概念入手,帮助你理解机器学习的基本原理,并详细介绍几种常见的机器学习算法及其应用场景。
凯子坚持C
2024/09/23
2390
【机器学习篇】解密算法魔方之魅之机器学习的多维应用盛宴
机器学习是一门多领域交叉学科,它旨在让计算机从数据中自动学习模式和规律,而无需明确地编程。其核心在于通过构建数学模型,并利用大量的数据对模型进行训练,使得模型能够对新的数据进行预测或分类等任务。
羑悻的小杀马特.
2025/01/23
980
【机器学习篇】解密算法魔方之魅之机器学习的多维应用盛宴
【机器学习基础】机器学习介绍
机器学习是一个跟“大数据”一样近几年格外火的词汇。而机器学习究竟是一个什么过程或者行为呢?接下来,让我们来看看什么是机器学习。
用户7459214
2020/07/06
7990
机器学习入门系列(1)--机器学习概览
一个简单的例子,也是经常提及的例子:垃圾邮件过滤器。它可以根据垃圾邮件(比如,用户标记的垃圾邮件)和普通邮件(非垃圾邮件,也称作 ham)学习标记垃圾邮件。用来进行学习的样例称作训练集。每个训练样例称作训练实例(或样本)。在这个例子中,任务 T 就是标记新邮件是否是垃圾邮件,经验E是训练数据,性能 P 需要定义:例如,可以使用正确分类的比例。这个性能指标称为准确率,通常用在分类任务中。
kbsc13
2019/08/16
7430
【机器学习】吴恩达机器学习Deeplearning.ai
机器学习已经强大到可以独立成为人工智能的一个子领域。 可以通过对机器编程实现比如执行网络搜索、理解人类语言、通过x光诊断疾病,或制造自动驾驶汽车。
天天Lotay
2023/04/04
6300
【机器学习】吴恩达机器学习Deeplearning.ai
AI: 机器学习中的两大核心方法监督学习与非监督学习
机器学习(Machine Learning)是人工智能的一个重要分支,通过算法和统计模型使计算机能够从数据中学习和做出决策。根据训练数据和学习任务的不同,机器学习可以分为监督学习(Supervised Learning)和非监督学习(Unsupervised Learning)两大类。本文将深入讲解这两种方法的原理、特点和应用场景。
运维开发王义杰
2024/07/10
3740
AI: 机器学习中的两大核心方法监督学习与非监督学习
选机器学习,还是深度学习?看完不纠结
大哥你好,我是来学「人工智能」的。但是,啥是「深度学习」?啥是「机器学习」?「深度学习」和「机器学习」有啥关系?我究竟该学「深度学习」还是「机器学习」?
商业新知
2019/03/28
1.6K0
选机器学习,还是深度学习?看完不纠结
【机器学习】机器学习算法基础知识
在我们了解了需要解决的机器学习问题的类型之后,我们可以开始考虑搜集来的数据的类型以及我们可以尝试的机器学习算法。在这个帖子里,我们会介绍一遍最流行的机器学习算法。通过浏览主要的算法来大致了解可以利用的方法是很有帮助的。 可利用的算法非常之多。困难之处在于既有不同种类的方法,也有对这些方法的扩展。这导致很快就难以区分到底什么才是正统的算法。在这个帖子里,我希望给你两种方式来思考和区分在这个领域中你将会遇到的算法。 第一种划分算法的方式是根据学习的方式,第二种则是基于形式和功能的相似性(就像把相似的动物归为一类
陆勤_数据人网
2018/02/26
6740
【机器学习】机器学习算法基础知识
《极限挑战》罗志祥遭套路“破产”,我们却看到了更大的危机
游戏中,急于与王迅猜拳赢得胜利的罗志祥,亲手将一个市值和利润率颇高的公司送入破产。相反,黄磊公司虽没有特别良好的市场竞争力,但得益于资深经理人的协助,他利用各种金融手段与股民建立信任机制,降低风险同时拉高公司市值。
AI科技大本营
2018/07/24
8170
《极限挑战》罗志祥遭套路“破产”,我们却看到了更大的危机
适合入门的8个趣味机器学习项目
谈到机器学习,相信很多除学者都是通过斯坦福大学吴恩达老师的公开课《Machine Learning》开始具体的接触机器学习这个领域,但是学完之后又不知道自己的掌握情况,缺少一些实际的项目操作。对于机器学习的相关竞赛挑战,有些项目的门槛有些高,参加后难以具体的实现,因此造成自己对机器学习的热情逐渐衰减。大部分都经历过这个过程,一直想找一些练手的项目,最典型的练手项目比如手写体识别等,但这类的项目成熟得不能再成熟了,参考别人的网络模型跑一下实验,结果的准确率都快达到100%,学习调参的机会比较少,因此都想找一些
小莹莹
2018/04/18
1.3K0
适合入门的8个趣味机器学习项目
【全网首发】机器学习该如何应用到量化投资系列(三)
有一些单纯搞计算机、数学或者物理的人会问,究竟怎么样应用 ML 在量化投资。他们能做些什么自己擅长的工作。虽然在很多平台或者自媒体有谈及有关的问题,但是不够全面和完整。从今日起,量化投资与机器学习公众号将推出一个系列【机器学习该如何应用到】。今日的推文,是编辑部人员对国内的所有券商金工团队做的机器学习的研究报告做了一个系统性的整理。希望大家有所收获。 获取本推文所有研报请看文章末端 系列文章(点击即可查看) 机器学习该如何应用到量化投资系列(一) 机器学习该如何应用到量化投资系列(二) 2010年08月1
量化投资与机器学习微信公众号
2018/01/29
2.4K0
机器学习面试问题-2023面试题库
最简单的答案是让我们的生活更轻松。在“智能”应用程序的早期,许多系统使用“如果”和“否则”决策的硬编码规则来处理数据或调整用户输入。考虑一个垃圾邮件过滤器,其工作是将相应的传入电子邮件移动到垃圾邮件文件夹。
jack.yang
2025/04/05
760
机器学习面试问题-2023面试题库
【机器学习】机器学习:人工智能中实现自动化决策与精细优化的核心驱动力
此外,还有一些其他的常用机器学习算法,如神经网络(Neural Networks)、K-近邻算法(K-Nearest Neighbors, KNN)、主成分分析(Principal Component Analysis, PCA)等。这些算法各有优缺点,适用于不同的数据类型和问题场景。在实际应用中,需要根据具体需求选择合适的算法,并进行相应的参数调整和优化。
E绵绵
2024/05/24
5800
【机器学习】机器学习:人工智能中实现自动化决策与精细优化的核心驱动力
每个机器学习项目必须经过的五个阶段
机器学习和预测分析在我们今天的生活中非常普遍。它几乎可以影响我们所做的一切,包括零售和批发定价,消费者习惯和行为,市场营销,娱乐,医药,物流,游戏,AI语音识别,AI图像识别,自驾车和机器人。 然而,无论你是在创造一辆自动驾驶汽车,预测客户流失,还是创建一个产品推荐系统,所有的机器学习项目都遵循相同的流程和五个基本的阶段。 阶段1:数据收集 数据是新的石油,它正在迅速成为世界上最有价值的商品,因为它促进了机器学习项目。没有数据,就没有机器学习,也没有预测分析。就像石油的拥有等级一样,数据一样拥有等级。最好的
AiTechYun
2018/03/05
2.1K0
每个机器学习项目必须经过的五个阶段
机器学习术语表
机器学习术语表:https://developers.google.com/machine-learning/glossary/ 机器学习术语表,即机器学习专业词典。 划重点,童鞋们!该表按A-Z字母排列,这里只列出A-C字母的机器学习术语表。需要全文的同学,请翻阅至最下,有福利...... A A/B 测试 (A/B testing) 一种统计方法,用于将两种或多种技术进行比较,通常是将当前采用的技术与新技术进行比较。A/B 测试不仅旨在确定哪种技术的效果更好,而且还有助于了解相应差异是否具有显著的统计意
Amusi
2018/04/12
8650
机器学习术语表
推荐阅读
相关推荐
【机器学习】深入探索机器学习:利用机器学习探索股票价格预测的新路径
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档