首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >包含范畴变量的LASSO子集选择

包含范畴变量的LASSO子集选择
EN

Stack Overflow用户
提问于 2018-09-07 11:11:03
回答 1查看 2K关注 0票数 2

我在有多个分类变量的数据集上运行了LASSO算法。当我在自变量上使用model.matrix()函数时,它会自动为每个因素级别创建虚拟值。

例如,我有一个变量"worker_type“,它有三个值: FTE、contr、other。在这里,指的是情态"FTE“。

其他一些分类变量有或多或少的因素水平。

当我输出拉索的系数时,我注意到worker_typecontr和worker_typeother的系数都是零的。我该如何解释结果呢?在这种情况下,FTE的系数是多少?我应该把这个变量从公式中取出来吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-09-07 13:22:04

也许这个问题更适合于交叉验证的

岭回归和拉索都是“收缩”方法,通常用来处理高维预测空间。

事实是,你的拉索回归减少了一些贝塔系数为零,这意味着,拉索正在做的正是它的设计!根据它的数学定义,拉索假定一些系数确实等于零。系数的解释是,与非零预测器相比,这些预测器不能解释响应中的任何方差。

为什么拉索把一些系数缩小到零?我们需要研究系数是如何选择的。Lasso本质上是一个多元线性回归问题,它通过最小化平方的残差和,再加上一个将系数缩减到0的特殊的L1惩罚项来解决。这是一个最小化的术语:

其中p是预测器的个数,lambda是一个非负的调谐参数.当lambda =0时,惩罚项就会退出,并且有一个多元线性回归。随着lambda变得更大,您的模型拟合将有较小的偏差,但更高的差异(即它将受到过度拟合)。

应该采取交叉验证的方法来选择适当的调整参数lambda。获取lambda值的网格,并计算每个lambda值的交叉验证错误,并选择交叉验证误差最低的调优参数值。

Lasso在某些情况下是有用的,有助于生成简单的模型,但应特别考虑数据本身的性质,以及考虑到与响应有多少真正相关的预测因子是否更合适,例如Ridge回归或OLS回归。

注意:参见“统计学习简介”第221页中的公式6.7,您可以免费下载它。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52228395

复制
相关文章

相似问题

领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档