faceSchool
经典算法(五)
回归实践(中)
5
上次我们主要配置了相关环境
并构建了房屋大小和房屋售价的散点图
这次我们
将构建一个房屋大小和房屋售价的回归模型
之前有同学反应安装 的问题 由于安装环境不同
问题也千奇百怪
作为windows10用户,安装graphlab create着实不是一件容易的事 愚钝如我,安装了半天
推荐大家按照官网的教程来,首先下载anaconda,不要用graphlab create launcher一键式安装,这个由于graphlab的下载服务器位于国外,速度极慢,而且一旦中间断了是不能断点续传的,只能重下
推荐按照官网的命令行方式安装,如果下载没网速的同学可以开4G热点,这个有时候也有用
python 回归实践
构建房屋预测回归模型
分离出训练集,测试集
被用来去拟合模型的数据叫做训练集
那些作为真实预测的替代叫做测试集
trian_data , teat_data = salse.random_split {.8, seed=0}
注释:
我们运用了一个random_split函数 ,
该函数就是把我们的训练集可以分成
训练集和测试集
( 随机划分 )
{ }中第一个参数 0.8 表示我们把sales 这个数据里80%的数据划分成训练集
剩下20% 随机划分为测试集
接着,我们可以定义一个种子 , 令seed = 0
也可不定义该种子。但如果不定义种子
在下次运行时由于随机划分会得到不同的结果
构建房屋预测回归模型
构建实际的回归模型
sqft_model = graphlab.linear_regression.create(train_data,target='price',features='[sqft_living]')
构建房屋预测模型
我们使用graphlab的linear函数
加上训练集+目标y+特征值x这些个参数
来构建回归模型
结果:
我们可以看到这个回归模型运用了16480个训练集
采用了一个特征
两个参数
用牛顿方法来训练的
评估简单回归模型
查看测试数据集的均值:
结果:
评估模型;
print sqft_model.evaluate{ test_data }
可见这个误差不小
使用图形化查看
1.
使用图形化查看
>>import matplotlib.pyplot as plt
这句的意思是 引入了matplotlib.pyplot 库
并把它用plt 表示
2.
将图画在本网页
>>% matplotlib inline
plt.plot
定义好X和Y轴,使用点号表示这个(x,y)
定义了两个函数,第一个XY表示原始测试集的伞点图,我们用点表示;
然而,我们的第二个XY表示我们的回归方程预测出来的值,用短横线表示
得到该图像
下一次我们将 探索数据中的其他特征
to be continued
我思故我在
知识电量不足5%
请立即充电
People always say that it's too late. However, in fact, now is the best appropriate time. For a man who really wants to seek for something, every period of life is younger and timely.
一起分享学习的点滴
扫码加入机器学习小组(为保证学习群质量请先加管理员经验证后自动加群)
领取专属 10元无门槛券
私享最新 技术干货