首先非常抱歉,和上次更新已经时隔1个月,因为我。。。期末考试了。。。
提示:阅读本文预计需要15分钟,如果一边看一边做,大约需要2小时,搭建这样一个机器学习环境,不需要你有任何AI或者机器学习的背景,但如果你会一些VMware或者Linux的基础,会快捷很多,最终我们会用一组数据来进行客户流失分析预测。
环境版本:本教程为通过VMware 14.0在Ubuntu 16.04麒麟版上,安装Anaconda5.0.1框架(机器学习框架)并解决一个实际业务问题,Python基于3.6,各种包通过Anaconda自己打,本文写于2018年1月18日,如果你在多年后看到此文,请直接关闭页签即可,我相信那个时候早就不是我写得版本和步骤了。
进行实战操作前,依然推荐你看看本号之前的理论基础文章,有一个正确的认识,机器学习,深度学习到底占了AI的多少,一个正确的大局观,将对我们后续的学习很有帮助。
人工智能的六大领域
01、计算机视觉
02、认知推理
03、自然语言
04、博弈决策
05、机器学习
06、机器人学
一、在Windows操作系统下,安装VMware虚拟机14.0版,并在虚拟机里安装Ubuntu 16.04麒麟版:
为什么在Linux环境下玩AI的机器学习?因为Linux不吃性能,可能更大程度发挥机器的效率,Windows并不是一个很好的联系机器学习的平台,性能堪忧,越往后,你会发现有算力强的机器的优势。。。
Ubuntu官方网站:
https://www.ubuntu.com/index_kylin
装完之后是这个样子,我建立了一个账户,真名是Victor,昵称TensorFlow,这里有坑,后面说到我忘了密码,需要Linux重置的时候,怎么折腾...
二、安装Python开发环境:Anaconda
这里。。。如果你还是自己下载Python,然后自己一个个装包,说实话,这是1年前的玩法了,我大概一年前也是自己装的,当时还要犹豫装Python2.7还是3.5版本?然后回遇到一大堆的安装Python模块包的问题,此处可以百度解决,但是坑还是不少的,反正第一次装的话,麻烦事不少,而且网上不少会误导你,而如果你是从来没有玩过Python的,那我倒是不反对你这么装,毕竟可以自己熟悉一下几个基本的包,比如numpy,sk-learn等~
但是在2018年的今天,如果你玩了一段时间的Python和机器学习了,但是你不知道Anaconda,对不起,同学,你落伍了。。。它一方面解决了安装环境的痛苦,各种包的搭配问题,同时,在编程可视化,DEBUG层面极为突出,Python自己的Console框是一个小黑框,对于我这种不是做服务器管理的,而是编程出身的人而言,看到命令行console界面是有天生的恐惧感的,所以,跟着我用Anaconda框架吧。
直接到Anaconda的官网,下载3.6对应的Linux版,目前版本是5.0.1,主要Python的版本和操作系统版本,我装的是64位的:
OK,我默认你是有Linux基础的,知道怎么在Linux下安装程序,如果实在不会,请百度一下,bash啊,vi这些命令就算不做Linux管理,大致怎么用还是可以了解一下的,
安装命令:
bash -rf Anaconda3-5.0.1-Linux-x86.sh
注意换你的版本号,根据你实际的下载文件名称和位置更换。
安装Anaconda过程特别要说的就是,最后会有一个提示命令是这样的:
默认是no,我强烈建议你选yes,我想试试自己设置,结果输入了no,然后至少花了2个小时通过不下10种方法,设置path,就是不行,最后还是重装的Anaconda,选择yes解决的问题,个人感觉自己智商不高,但肯定也够用,此处应该是有深坑,因为百度和google一堆问怎么设置不成功...另外多说一句,卸载其实直接删除整个Anaconda的目录就行了:
rm -rf anaconda
安装成功后,如何测试OK了?
先是
python
进入到Python开发环境后,可以看一下版本,3.6就说明没有太大问题,因为Ubuntu一般默认是2.7的版本,不过还是可以
import scipy
加载scipy一下,不报错就证明成功了,这个包的安装有多坑,相信装过的人都知道。。。
另外,可以用这个命令看到Anaconda的版本,不报错也证明成功了
conda -V
Linux是区分大小写的,注意大小写,其他命令大家自己试试,比如conda list,可以看到装了哪些包,茫茫多,自己打还真是费劲。
三、运行开发环境:Anaconda,并尝试加载数据
好了,接下来是好用的地方了,我们装了Anaconda不仅仅是为了打Python的环境和那些包,附送的可视化工具也是棒棒的,比如这个我非常喜欢的jupyter:
在自己的文档目录下新建一个文件夹,比如demo-customer-churn-ann,然后右键打开一个新的命令窗口,输入:
jupyter notebook
然后需要等大概10-20秒左右,依据你的机器性能有差异,会打开一个浏览器,并且看到这样的界面:
jupyter自带了可视化的文档管理工具,这里面的内容是我提前下载好的一个客户流失分析数据源,大概1万条数据。
好了,现在假设你已经获取了文件,并且放到了新建的目录下,并且从新建的目录启动了jupyter,现在可以输入这些代码然后,点击run来看一下输出效果,比Python的那个黑框强多了,有没有?
首先,读入数据清理最常用的pandas和numpy包。
import numpy as npimport pandas as pd
从里读入数据:
df = pd.read_csv('customer_churn.csv')
看看读入效果如何:
df.head()
这里我们使用了函数,只显示前5行。
OK,到这里话,我们先暂停一下,后续的coding并不是很难,我们先跳出来,整理一下思路,然后在下一个文章里,我们将继续完整地完成这个客户流失分析的案例,在我等待的这一周内,请先确保自己环境安装正确,如果实在安装不成功,你也可以向Victor索取安装好的VWmare环境,用户名TensorFlow,密码:Python,索取方式自然是关注本公众号后发送消息,所以赶快安装环境吧,如果有任何问题可以给我留言。
编者按:(本公众号已经受邀加入了原创保护,欢迎转载,但如有转载请注明出处)。
======================
扫描关注微信号,获取更多有价值信息。
领取专属 10元无门槛券
私享最新 技术干货