上一讲介绍了逻辑回归的由来,而且我们知道逻辑回归是用来解决分类问题的,那么今天这一讲分析一下,为什么逻辑回归能够解决分类问题。引入一个概念,叫做判定边界,可以理解为是对不同类别的数据分割的边界,边界的两旁是不同的类别。
先从二维直角坐标系中,举几个例子,大概是如下这个样子:
甚至可能是这个样子:
上述三幅图中的红绿样本点为不同类别的样本,而我们划出的线,不管是直线、圆或者是曲线,都能比较好地将图中的两类样本分割开来。这就是我们的判定边界,下面我们来看看,逻辑回归是如何根据样本点获得这些判定边界的。
我们回到吴恩达老师的讲义,回到sigmoid函数发现:
当g(z)≥0.5时, z≥0;
对于hθ(x)=g(θTX)≥0.5, 则θTX≥0, 此时意味着预估y=1;
反之,当预测y = 0时,θTX
所以我们认为θTX =0是一个判定边界,当它大于0或小于0时,逻辑回归模型分别预测不同的分类结果。
先看第一个例子hθ(x)=g(θ0+θ1X1+θ2X2),其中θ0 ,θ1 ,θ2分别取-3, 1, 1。则当−3+X1+X2≥0时, y = 1; 则X1+X2=3是一个判定边界,图形表示如下,刚好把图上的两类点区分开来:
上个例子中只是一个线性的决策边界,当hθ(x)更复杂的时候,我们可以得到非线性的判定边界,例如:
这时当x1^2+x2^2≥1时,我们判定y=1,这时的决策边界是一个圆形,如下图所示:
所以我们发现,理论上说,只要我们的hθ(x)设计足够合理,准确的说是g(θTx)中θTx足够复杂,我们能在不同的情形下,拟合出不同的判定边界,从而把不同的样本点分来。
祝您的机器学习之旅愉快!
本文参考资料:斯坦福吴恩达老师的机器学习讲义,图片直接来自讲义;
领取专属 10元无门槛券
私享最新 技术干货