首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

《机器学习实战》读书笔记系列(一):基础认知

一、机器学习的主要任务就是 :分类(将实例的数据划分到合适的分类中)

二、当我们决定使用某个机器学习算法进行分类,首先要做的就是算法训练,即学习如何分类

三、为了测试训练算法的效果,通常使用两套独立的样本集:训练集,测试集

(在工作或者比赛中,更可能会有三个集合,训练集会分成两部分,一部分用于训练,一部分用于训练后核对结果.叫做验证集.后面会跟着项目穿插来讲)

四、机器学习的另一项任务是 :回归(预测数值型数据)

(分类和回归属于监督学习)

五、如何选择合适的算法

看你想要算法做什么à如果要预测,就选监督学习算法,不然就无监督学习

à确定监督学习算法后,确定目标变量类型

离散型就分类器算法,连续型就选回归算法

很重要的一点,就是考虑数据问题,必须要充分了解数据,对数据进行清洗

(常言道:数据清洗占据数据挖掘90%的工作量)

主要应该了解数据一下特性:

特征值是离散型还是连续型变量

特征值中是否存在缺失值,什么原因造成缺失值

数据中是否存在异常值

某个特征发生的频率如何

我们只能在一定程度上缩小算法的范围,一般不存在最好的算法或者可以给出最好结果的算法,同时还要尝试不同算法的执行效果

六、机器学习算法开发应用程序,通俗步骤

收集数据(通过爬虫或者公开网络数据源或者公司内部产品数据)

准备输入数据

分析数据数据(一般就是用python进行数据分析,和数据清洗,是最关键的一步)

训练算法(机器学习从这一步才开始学习)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180809G1LE9400?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券