文章/答案/技术大牛

发布

Logistic回归讲解之泰坦尼克号生存预测（一）

文章来源：企鹅号

logistic回归是一种广义线性回归属于监督学习中的一种，主要用于二分类问题，同时也可以推广为多项逻辑斯谛回归。本篇所写的内容包括线性分类器原理的讲解、逻辑斯谛回归原理讲解；下篇所写内容包括使用python实现逻辑斯谛回归、再使用此程序对kaggle入门比赛（泰坦尼克号生存数据）进行简单分析并预测，从而实现输入每个人的特征数据来预测他是否会在泰坦尼克号沉船事件中存活。（ps：本篇文章从基础讲起，基础牢固的可以跳过前面知识）

·线性分类器原理

线性分类器是一种用超平面把正负样本分割开的模型。例如有一个样本数量为N的训练数据，每个数据有两个特征值（x1与x2）,此样本数据分为红绿两种类别（y=-1与y=1）。（如下图所示）

此时我们要找到一条最适合的分界线分割来它们（如下图），然后利用这条分界来判断这些数据的类别，在这条线上面的属于绿色类别，在这条线下面的属于红色类别（分类错误的可以理解为噪音影响）。因此此线性分类器的模型形式是M(X)=w+w1x1+w2x2=WXT,其中W=[ww1w2]、X=[1 x1x2]。当M(X)>0时，y=1，类别为绿色类别;当M(X)

当数据的特征有三个时即X有三个纬度[x1x2x3],所得到的用于分类的平面便是一个二维平面。依次类推当数据有N个维度时，线性分类器都是用一个（N-1）维度的面去分割它，这种面就叫做超分割平面。我们所做的就是要找到最适合的超分割平面，而找到超分割平面的关键就是求参数W的值。

·逻辑斯谛回归

二项逻辑斯谛回归由条件概率分布P(YX)表示，这里的随机随机变量X取值范围还是实数，而随机变量Y取值不再是而是。二项逻辑斯谛回归模型的条件概率表示形式为：

其中是输入，是输出，是参数（包含权重值和偏置），为w与x的内积。,（其中是偏置）。逻辑斯谛回归就是比较这两个条件概率值的大小，将实例x分到概率值大的那一类。那么为什么会用这个表达式呢？

下面我们来看一下逻辑斯谛分布函数：

式中为位置参数，决定图形的中心位置；为形状参数，值越小则曲线在中心附近增长越快。（如下图）

当x越大，F(x)的值越接近1；x值越小，F(x)的值越接近；x越接近u，F(x)的值越接近0.5。现在我们设一个线性分类器的超分割平面函数为M(X)=WXT替换了逻辑斯谛分布函数F(x)中的x，再设置r值为1，u值为0,并令它为P(Y=1x)的函数便得到如下表达式：

得到的函数意义可以理解为（结合线性分类器原理理解）：M(X)=WXT>0时，P(Y=1x)>0.5,并且越接近正无穷时P(Y=1x)的概率越接近1；(X)=WXT

接下来要做的是模型参数估计，得到最佳的W值，设：

·参数估计

参数估计这里将讲两种优化的形式，一种是《统计学习方法》里得到最优W估计值的方法，一种是《机器学习基石》林轩田老师课中所讲的方法，其实两种方法可以互换，本质属于同一种：

《统计学习方法》

似然函数为：

取对数得到对数似然函数：

现在的目标就是得到最大的L(w),即求我们可以用梯度上升的方法迭代得到L(w)的最大值，即先找到L(w)的梯度，然后再用下面公式不断更新w的值：

我们对L(w)求梯度：

此时我们便可以用梯度上升不断迭代求得使L(w)最大的W估计值：

总结logistic回归的步骤为：

1,计算梯度：

2,迭代更新W的值：

3,满足或者一定的迭代次数时迭代结束。

《机器学习基石》

似然函数为：

求对数得到损失函数为：

取梯度为：

取步长为，则梯度下降的递推式为：

总结logistic回归的使用步骤：

1,计算梯度：

2,迭代更新W值：

3,满足或者一定迭代次数时，迭代结束。

·参考文献

《统计学习方法》李航著

《机器学习基石》林轩田

《机器学习实战》 Peter Harrington

发表于: 2018-02-182018-02-18 13:54:43
原文链接：http://kuaibao.qq.com/s/20180218G0B60H00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Logistic回归讲解之泰坦尼克号生存预测（一）

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐