一、机器学习的主要任务就是 :分类(将实例的数据划分到合适的分类中)
二、当我们决定使用某个机器学习算法进行分类,首先要做的就是算法训练,即学习如何分类
三、为了测试训练算法的效果,通常使用两套独立的样本集:训练集,测试集
(在工作或者比赛中,更可能会有三个集合,训练集会分成两部分,一部分用于训练,一部分用于训练后核对结果.叫做验证集.后面会跟着项目穿插来讲)
四、机器学习的另一项任务是 :回归(预测数值型数据)
(分类和回归属于监督学习)
五、如何选择合适的算法
看你想要算法做什么à如果要预测,就选监督学习算法,不然就无监督学习
à确定监督学习算法后,确定目标变量类型
离散型就分类器算法,连续型就选回归算法
很重要的一点,就是考虑数据问题,必须要充分了解数据,对数据进行清洗
(常言道:数据清洗占据数据挖掘90%的工作量)
主要应该了解数据一下特性:
特征值是离散型还是连续型变量
特征值中是否存在缺失值,什么原因造成缺失值
数据中是否存在异常值
某个特征发生的频率如何
…
我们只能在一定程度上缩小算法的范围,一般不存在最好的算法或者可以给出最好结果的算法,同时还要尝试不同算法的执行效果
六、机器学习算法开发应用程序,通俗步骤
收集数据(通过爬虫或者公开网络数据源或者公司内部产品数据)
准备输入数据
分析数据数据(一般就是用python进行数据分析,和数据清洗,是最关键的一步)
训练算法(机器学习从这一步才开始学习)
领取专属 10元无门槛券
私享最新 技术干货