前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >我眼中的多元回归模型

我眼中的多元回归模型

作者头像
许卉
发布于 2019-07-15 09:11:55
发布于 2019-07-15 09:11:55
1.2K0
举报
文章被收录于专栏:Data AnalystData Analyst

多元回归与一元回归不同

Data Analyst

与一元回归相比,多元回归有两点不同:

1、新增了一个假定,多元回归的假定为:

  • Y的平均值能够准确的被由X组成的线性函数模型呈现出来;
  • 解释变量和随机扰动项不存在线性关系;
  • 解释变量之间不存在线性关系或强相关
  • 假设随机误差项e是一个均值为0的正态分布;
  • 假设随机误差项e的方差恒定;
  • 误差独立。

2、多元线性回归会面临变量选择的问题

模型自变量增加后,即便使用聚类等手段进行变量压缩,也不能将自变量的相关性完全剔除,这便会导致具有相关性的自变量溜进模型。由于自变量间关系不同,建模所选择的策略也会不同,模型的结果相对也会有较大差异,SAS中一般会使用selection参数进行变量控制,这个参数即为变量选择提供准则与方法。

多元线性回归的多重共线性

Data Analyst

多元线性回归的自变量间不能具有多重共线性,但实际构建模型时经常会遇到自变量间高度重叠的情况,即自自变量间高度相关,一般SAS中使用VIF参数进行自变量相关性的检验。

如下为多元线性回归的SAS实现代码及VIF检验参数解读:

VIF参数解读:

这里模型整体非常显著模型的自变量却只有一个是显著的,大部分自变量都没有显著,这种情况明显是模型的自变量间出现了多重共线性。或者换一个角度,我会通过查看方差膨胀值来观察共线性,膨胀值为10以下表示暂无共线性、膨胀值为10以上表示出现了多重共线性、如果方差膨胀值达到100甚至以上则表示严重共线性。这里出现了两个10以上的方差膨胀值,即当地人均收入与年收入这两个变量出现了共线性。

遇到多重共线性怎么办

Data Analyst

遇到多重共线性一般会有两种处理办法:

1、最简单粗暴的方法,是将出现多重共线性的两个变量都从模型中去掉。如果想去掉其中的一个变量,这就会涉及到去掉哪个变量的问题,一般我会回过头去看变量间的相关系数矩阵图,反复查看确认这两个共线性的变量间到底是哪个变量和其他变量间相关性更强些,然后再删掉与其他变量相关性更强些的这个变量。一般,统计软件只能提示这两个变量出现了多重共线性,但是至于两个变量都去掉、去掉其中一个变量、去掉其中哪一个变量 这个过程统计软件是没法提供帮助的。

2、不去掉这些变量的情况下将模型构建起来,便涉及到了设置变量选择准则,也就是向前法、向后法等等。

还有一种情况,例如某个变量引起了多重共线性,理应删除,但是业务上这个变量又不能缺失,实际中这种情况是可以使用一些算法进行处理的,例如岭回归、LASSO、最小角度回归LAR、主成分回归、偏最小二乘回归等等。

变量选择及项目流程

Data Analyst

建模选择变量时首先考虑的不应该是技术,而是业务。实际上,如果项目周期是三个月,那么跑模型的时间应该是不超过10天的,剩下的大量精力应该放在理解业务上。

例如预测酱油的需求量,基本的思路应该是:

1、了解业务

每一个业务领域都会有自己的体系,建模前需深入了解对应领域、体系下业务相关的全部资料,总结出哪些因素可能会影响酱油销量。

假如查阅了大量资料后了解到 影响酱油销量的因素有商品价格、代用品价格、当地收入水平、消费者偏好这四个方面,那么接下来需要判断这些因素是否都可以进行数据量化,将不能量化描述的变量排除掉。

一般偏好较难进行量化描述,偏好比较适合作为因变量进行入模(例如买与不买),但不适合作为自变量,所以不会选择将偏好选为自变量进行入模,排除掉;酱油本身价格较低,生活中使用其替代品的情况较少,所以替代品价格这个自变量也排除掉。

故最终可以确定模型的因变量为酱油需求量,模型的自变量为酱油价格与收入水平

2、反复沟通

模型服务于业务,与业务人员反复沟通必不可少,沟通过程中需要非常非常高的情商,很可能在这个阶段耗费掉2个月的时间;

3、变量落地

找出入模变量的替换变量,需求量Y可用上一期的销量所代替;收入难于获取,一般很难拿到一个人的真实收入,所以一般用人均消费水平去代替收入变量;价格变量需要考虑可比性的问题,即空间可比性(同城市的价格不同)与时间可比性(十年前和今天价格是不同的)。

故最终确定的模型落地变量为:Y为酱油销量,X为平均销售价格、不变价格的消费水平

4、数据清洗与建模

一般,剩余20天左右的时间进行数据清洗、剩余10天左右的时间去跑模型。

回归模型中多少个变量合适

Data Analyst

SAS构建回归模型时,依据不同功能可以将模型划分为不同类别,一般模型可以分为三类:

1、机理模型

机理模型追求将变量关系描述的越清楚越好,这类模型涉及到的变量比较多。物理定律一般都是机理模型,比较典型的如F=ma;

2、经验模型

实际中变量间关系较为复杂,用机理模型无法描述。例如用模型去描述人口增长,这种情况只能提取历史数据去建立经验模型,而无法建立机理模型。因自变量自身存在误差,变量越多误差越大,从而导致预测越不准,所以经验模型为了追求预测准确度 模型的变量较少

3、模拟模型

模拟模型是所有建模人的终极愿望,这个模型需要将事物发生、发展的全过程都用数学语言再现出来。例如银行的压力测试即为模拟模型。

我选择变量的方式

Data Analyst

变量选择在回归里是一个很麻烦的事情,我会依据实际情况,如果变量较少,我会使用全子集回归,然后从结果中去选择自己认为比较好的变量组合;如果变量数目较多,我更喜欢去使用逐步回归

如下为全子集回归模型的SAS实现代码:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-02-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Data Analyst 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
多元线性回归:机器学习中的经典模型探讨
多元线性回归是统计学和机器学习中广泛应用的一种回归分析方法。它通过分析多个自变量与因变量之间的关系,帮助我们理解和预测数据的行为。本文将深入探讨多元线性回归的理论背景、数学原理、模型构建、技术细节及其实际应用。
平凡之路.
2024/10/11
7800
多元线性回归:机器学习中的经典模型探讨
算法金 | 线性回归:不能忽视的五个问题
线性回归是一种统计方法,用于研究因变量 𝑌 和一个或多个自变量 𝑋 之间的线性关系。其理论依据主要基于以下几个方面:
算法金
2024/06/30
1250
算法金 | 线性回归:不能忽视的五个问题
用 VIF 方法消除多维数据中的多重共线性
多元线性回归是我们在数据分析中经常用到的一个方法,很多人在遇到多维数据时基本上无脑使用该方法,而在用多元线性回归之后所得到的结果又并不总是完美的,其问题实际上并不出在方法上,而是出在数据上。当数据涉及的维度过多时,我们就很难保证维度之间互不相关,而这些维度又都对结果产生一定影响,当一组维度或者变量之间有较强的相关性时,就认为是一种违背多元线性回归模型基本假设的情形。今天我们就讲解一下如何用VIF方法消除多维数据中多重共线性的问题。
全栈程序员站长
2022/09/03
1.7K0
用 VIF 方法消除多维数据中的多重共线性
多重共线性检测—相关性系数矩阵和方差膨胀系数(VIF)分析学习
多重共线性(Multicollinearity) 是在多元线性回归分析中经常遇到的一个问题,它发生在当两个或更多的预测变量(自变量)在统计模型中高度相关。在这种情况下,这些变量之间的关系会影响模型对各个变量影响的准确评估,从而导致以下几个问题:
凑齐六个字吧
2024/09/04
1.3K0
多重共线性检测—相关性系数矩阵和方差膨胀系数(VIF)分析学习
突破最强算法模型,回归!!
读者问:“我听说在某些回归算法中,如岭回归和LASSO,数据标准化或归一化非常重要。但是,我不太清楚什么时候以及为什么需要进行这些步骤。方便大概解释一下吗?”
Python编程爱好者
2023/12/18
3430
突破最强算法模型,回归!!
多元线性回归容易忽视的几个问题(1)多重共线性
最近在看《R数据分析——方法与案例详解》,感觉很不错,本书精华是统计学理论与R的结合,尤其是多元统计部分,因为本书其中一个作者朱建平是厦大统计系教授,曾编写过《应用多元统计分析》一书,可能有同学用过这本教材。《R数据分析》的理论部分建议研究透彻,公式部分最好都演算一遍。因为已经看过《R inaction》,所以笔记就只做我比较感兴趣的部分,也是我认为比较重要的部分。
Ai学习的老章
2019/04/10
5.5K0
多元线性回归容易忽视的几个问题(1)多重共线性
多元共线性检测 -- 方差膨胀因子
探索性数据分析、数据清洗与预处理和多元线性回归模型构建完毕后,为提升模型精度及其稳健性,还需进行许多操作。方差膨胀因子便是非常经典的一步,原理简单,实现优雅,效果拔群。
萝 卜
2022/05/12
1.6K0
多元共线性检测 -- 方差膨胀因子
多重共线性VIF
多重共线性是指自变量之间存在线性相关关系,即一个自变量可以是其他一个或几个自变量的线性组合。
全栈程序员站长
2022/08/12
9990
多重共线性VIF
原理+代码|Python实战多元线性回归模型
「多元线性回归模型」非常常见,是大多数人入门机器学习的第一个案例,尽管如此,里面还是有许多值得学习和注意的地方。其中多元共线性这个问题将贯穿所有的机器学习模型,所以本文会「将原理知识穿插于代码段中」,争取以不一样的视角来叙述和讲解「如何更好的构建和优化多元线性回归模型」。主要将分为两个部分:
刘早起
2020/08/06
6.3K1
原理+代码|Python实战多元线性回归模型
最优子集回归算法详解
最优子集回归是多元线性回归方程的自变量选择的一类方法。从全部自变量所有可能的自变量组合的子集回归方程中挑选最优者。如m个自变量会拟合2m-1个子集回归方程,然后用回归方程的统计量作准则(如交叉验证误差、Cp、BIC、调整R2等指标)从中挑选。
ruochen
2022/01/05
4.2K0
多元回归分析存在多重共线性了怎么办?
即两个自变量之间的关系是一条直线, 称之为共线性,当三个或以上自变量之间存在共线性时,称之为多重共线性,数据公式表示如下
生信修炼手册
2019/12/17
5.4K0
线性回归模型
线性回归模型作为统计学和机器学习领域的一项基础而强大的工具,广泛应用于预测分析和数据建模。其简单直观的特性使其成为理解和实践数据科学的入门砖石。本文旨在深入浅出地讲解线性回归模型的基本概念、工作原理、实现步骤以及在实际问题中的应用示例,帮助读者全面掌握这一经典模型。
终有链响
2024/07/29
2100
VIF 多重共线性膨胀因子
方差膨胀系数(variance inflation factor,VIF)是衡量多元线性回归模型中复 (多重)共线性严重程度的一种度量。它表示回归系数估计量的方差与假设自变量间不线性相关时方差相比的比值。
全栈程序员站长
2022/09/06
1.4K0
VIF 多重共线性膨胀因子
多元回归分析
前面我们讲了一元线性回归,没看过的可以先去看看:一元线性回归分析。这一篇我们来讲讲多元线性回归。一元线性回归就是自变量只有一个x,而多元线性回归就是自变量中有多个x。
张俊红
2019/11/07
1.4K0
机器学习回归模型的最全总结!
回归分析为许多机器学习算法提供了坚实的基础。在这篇文章中,我们将介绍回归分析概念、7种重要的回归模型、10 个重要的回归问题和5个评价指标。
算法进阶
2023/09/21
1.9K0
机器学习回归模型的最全总结!
你应该掌握的七种回归技术
【编者按】回归分析是建模和分析数据的重要工具。本文解释了回归分析的内涵及其优势,重点总结了应该掌握的线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归、ElasticNet回归等七种最常用的回归技术及其关键要素,最后介绍了选择正确的回归模型的关键因素。 什么是回归分析? 回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。 回归
用户1737318
2018/06/05
7680
python生态系统中的线性回归
需求最大的受监督机器学习算法之一是线性回归。线性回归扎根于统计领域,因此必须检查模型的拟合优度。
代码医生工作室
2019/10/06
1.9K0
详解:7大经典回归模型
来源:csdn 深度学习爱好者本文约2900字,建议阅读5分钟本文给大家介绍机器学习建模中7大经典的回归分析模型。 什么是回归分析? 回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。 回归分析是建模和分析数据的重要工具。在这里,我们使用曲线/线来拟合这些数据点,在这种方式下,从曲线或线到数据点的距离差异最小。我会在接下来的部分详细
数据派THU
2023/04/18
1.2K0
详解:7大经典回归模型
如何用spss做一般(含虚拟变量)多元线性回归
回归一直是个很重要的主题。因为在数据分析的领域里边,模型重要的也是主要的作用包括两个方面,一是发现,一是预测。而很多时候我们就要通过回归来进行预测。关于回归的知识点也许不一定比参数检验,非参数检验多,但是复杂度却绝对在其上。回归主要包括线性回归,非线性回归以及分类回归。本文主要讨论多元线性回归(包括一般多元回归,含有虚拟变量的多元回归,以及一点广义差分的知识)。请大家不要觉得本人偷奸耍滑,居然只有一个主题,两个半知识点。相信我,内容会很充实的。 对于线性回归的定义主要是这样的:线性回归,是基于最小
小莹莹
2018/04/18
15.1K1
多元线性回归
当预测变量也即自变量不止一个时为多元线性回归(multivariable linearregression,MLR),多项式回归可以看成特殊情况下的多元线性回归。现在我们以微生物群落数据为例,探究α多样性指数与环境因子(Salinity、pH、TN、TP,在3.3.2.4VPA分析中这几个变量对微生物群落的解释量较高)之间的关系,如下所示:
SYSU星空
2022/05/05
1.3K0
多元线性回归
推荐阅读
相关推荐
多元线性回归:机器学习中的经典模型探讨
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档