前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >虚拟变量在模型中的作用

虚拟变量在模型中的作用

作者头像
许卉
发布于 2019-07-15 09:13:13
发布于 2019-07-15 09:13:13
4.4K0
举报
文章被收录于专栏:Data AnalystData Analyst

虚拟变量是什么

实际场景中,有很多现象不能单纯的进行定量描述,只能用例如“出现”“不出现”这样的形式进行描述,这种情况下就需要引入虚拟变量。例如即将到来的女生节,每年的这个时候毛绒玩具的销量都会上升,说明女生节对毛绒玩具的销量产生了一定影响,但是这个影响程度又很难界定,这时只能定义一个虚拟变量去描述事情“发生”与“不发生”了。

虚拟变量指的是:用成对数据如0和1 分别表示具备某种属性和不具备该种属性的变量,也叫作二进制变量、二分变量、分类变量以及哑变量。模型中引入了虚拟变量,虽然模型看似变的略显复杂,但实际上模型变的更具有可描述性

例如如下的虚拟变量:

  • 1表示男生,则0表示女生;
  • 1表示蒙古族,则0表示非蒙古族;
  • 1表示清明节前,则0表示清明节后。

虚拟变量该怎样设置

构建模型时,可以利用虚拟变量进行变量区间划分。例如:

  • 构建居民存款影响因素模型时,可将年龄作为自变量引入模型,将年龄变量划分为“35岁前”与“35岁后”两个区间;
  • 构建消费影响因素模型时,可将历史时期作为自变量引入模型,将历史时期变量划分为“改革开放以前”与“改革开放以后”两个区间;
  • 构建公司员工绩效模型时,可将打卡时间作为自变量引入模型,将打卡时间变量划分为“准时”与“不准时”两个区间。

一般,对于只有两种特征的因素,用一个虚拟变量即可将两种特征完全表达出来。例如:天气因素有晴天、多云与下雨三种特征,可以设置两个虚拟变量来描绘这三种特征,即:

  • 特征A=1表示晴天、特征A=0表示其他;
  • 特征B=1表示多云、特征B=0表示其他。

这样就可以用两个特征描述出天气变量全部的特征。也就是:

  • 特征A=1特征B=0表示晴天;
  • 特征A=0特征B=1表示多云;
  • 特征A=0特征B=0表示下雨

需要注意的是,m种特征的因素,一般情况下只需引入m-1个虚拟变量,否则会出现局部多重共线性。

建模数据不符合假定怎么办

构建回归模型时,如果数据不符合假定,一般我首先考虑的是数据变换,如果无法找到合适的变换方式,则需要构建分段模型,即用虚拟变量表示模型中解释变量的不同区间,但分段点的划分还是要依赖经验的累积。

回归模型的解读

回归模型可以简单这样理解:

  • 如果模型为 log(wage)=x0+x1*edu+u 的形式,则可以简单理解为:X每变化一个单位,则Y变化的百分点数;
  • 如果模型为 log(wage)=x0+x1*log(edu)+u 的形式,则可以简单理解为:X每变化一个百分点,则Y变化的百分点数。

我很少单独使回归模型

回归模型我很少单独使用,一般会配合逻辑回归使用,即常说的两步法建模。例如购物场景中,买与不买可以构建逻辑回归模型,至于买多少则需要构建普通回归模型了。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-02-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Data Analyst 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
MADlib——基于SQL的数据挖掘解决方案(24)——分类之决策树
决策树(Decision Tree)又称为分类树(Classification Tree),是最为广泛的归纳推理算法之一,处理类别型或连续型变量的分类预测问题,可以用图形和if-then的规则表示模型,可读性较高。决策树模型通过不断地划分数据,使因变量的差别最大,最终目的是将数据分类到不同的组织或不同的分枝,在因变量的值上建立最强的归类。
用户1148526
2019/05/25
1.1K0
塔秘 | 应用 AI 之前,你必须了解的 10 项准备工作
导读 不是每一个问题都可以通过机器学习来解决,且不是每一个公司都准备应用人工智能。本文会告诉你,你的公司是否有利用人工智能的条件,以及在那之前如何才能实现它。 首先: 你知道自己想要预测或检测什么吗?
灯塔大数据
2018/04/04
7850
塔秘 | 应用 AI 之前,你必须了解的 10 项准备工作
贝叶斯线性回归和多元线性回归构建工资预测模型|附代码数据
在本文中,我们将分析横断面工资数据,以期在实践中使用贝叶斯方法,如BIC和贝叶斯模型来构建工资的预测模型。
拓端
2023/03/21
1.3K0
精准预测武汉房价!浙大GIS实验室提出osp-GNNWR模型:准确描述复杂空间过程和地理现象
浙江大学 GIS 重点实验室通过引入优化的空间邻近度指标并将其融入神经网络架构,提升了模型对房价预测的准确性。
HyperAI超神经
2024/06/17
2150
精准预测武汉房价!浙大GIS实验室提出osp-GNNWR模型:准确描述复杂空间过程和地理现象
深入探索机器学习中的线性回归模型:原理、应用与未来展望
在当今这个数据驱动的时代,机器学习技术已经渗透到我们生活的方方面面。作为机器学习领域中最基础、最经典的算法之一,线性回归模型凭借其简单易懂、计算效率高和可解释性强的特点,在预测、趋势分析等领域发挥着重要作用。本文将详细探讨线性回归模型的原理、应用实例、优缺点以及未来发展趋势。
破晓的历程
2024/06/24
5080
深入探索机器学习中的线性回归模型:原理、应用与未来展望
【机器学习】算法原理详细推导与实现(七):决策树算法
在之前的文章中,对于介绍的分类算法有逻辑回归算法和朴素贝叶斯算法,这类算法都是二分类的分类器,但是往往只实际问题中
机器学习和大数据挖掘
2020/08/24
4050
【机器学习】算法原理详细推导与实现(七):决策树算法
如何用逻辑回归做数据分析?
逻辑回归是解决二分类问题的监督学习算法,用来估计某个类别的概率。其直接预测值是表示0-1区间概率的数据,基于概率再划定阈值进行分类,而求解概率的过程就是回归的过程。
Python数据科学
2021/01/28
1K0
如何用逻辑回归做数据分析?
斯坦福最新研究:看图“猜车祸”,用谷歌街景数据建立车祸预测新模型
与其他商品不同的是,车祸保单的最终成本在初始销售时是未知的。因此,建立一个合理的定价机制是非常具有挑战的。有些保险公司尝试使用统计方法来解决这一问题:预测每个客户的未来风险。
大数据文摘
2019/05/15
7220
多元线性回归:机器学习中的经典模型探讨
多元线性回归是统计学和机器学习中广泛应用的一种回归分析方法。它通过分析多个自变量与因变量之间的关系,帮助我们理解和预测数据的行为。本文将深入探讨多元线性回归的理论背景、数学原理、模型构建、技术细节及其实际应用。
平凡之路.
2024/10/11
6010
多元线性回归:机器学习中的经典模型探讨
python数据分析——数据分析的数据模型
数据分析的数据模型是决策支持系统的重要组成部分,它通过对大量数据的收集、整理、分析和挖掘,为企业提供有价值的信息,以支持企业的战略规划和日常运营。数据模型的选择和应用,直接关系到数据分析的准确性和有效性,进而影响企业的决策质量和市场竞争力。
鲜于言悠
2024/03/20
2700
python数据分析——数据分析的数据模型
【临床研究】一个你无法逃避的问题:多元回归分析中的变量筛选
临床模型研究,说到底是做一个模型,那么模型应该如何纳入自变量,纳入哪些自变量,这都是至关重要的问题。线性回归,逻辑回归和Cox比例风险回归模型是被广泛使用的多元回归分析方法。我们在前面的几篇文章中解释过他们的统计学意义、应用及结果释义。但是我们很少讨论自变量筛选的方法,这些方法在数据分析和撰写论文时应用较为混乱,却十分重要。本集整理并总结了前沿的自变量筛选方法,我们来一观究竟。
用户6317549
2020/05/15
11.4K1
HAWQ + MADlib 玩转数据挖掘之(十一)——分类方法之决策树
一、分类方法简介 1. 分类的概念         数据挖掘中分类的目的是学会一个分类函数或分类模型(也常常被称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。分类可描述如下:输入数据
用户1148526
2018/01/03
1.5K0
HAWQ + MADlib 玩转数据挖掘之(十一)——分类方法之决策树
统计建模——模型——python为例
应用方式:用于研究一个连续因变量与一个或多个自变量之间的线性关系。通过对数据进行拟合,确定自变量对因变量的影响程度(系数),并可以用来预测给定自变量值时因变量的期望值。例如,在经济学中,用于分析GDP与投资、消费、出口等因素的关系;在市场营销中,预测销售额与广告支出、价格、季节因素等的关系。
小李很执着
2024/06/15
2110
统计建模——模型——python为例
应用 AI 之前,你必须了解的 10 项准备工作
这篇文章对你的人工智能和机器学习项目进行分解,讨论其各个部分所带来的影响,从而帮助你确定公司是否真正准备利用机器学习、深度学习或人工智能。 不是每一个问题都可以通过机器学习来解决,且不是每一个公司都准
CDA数据分析师
2018/02/08
6320
应用 AI 之前,你必须了解的 10 项准备工作
创建模型,从停止死记硬背开始
对于机器学习/数据科学的研究者而言,回归分析是最基础的功课之一,可以称得上是大多数机器学习/数据科学研究的起点。
AI科技评论
2020/03/25
8590
创建模型,从停止死记硬背开始
原理+代码,总结了 11 种回归模型
本文所用数据说明:所有模型使用数据为股市数据,与线性回归模型中的数据一样,可以做参考,此处将不重复给出。
数据STUDIO
2021/06/24
4.7K0
【视频】什么是非线性模型与R语言多项式回归、局部平滑样条、 广义相加GAM分析工资数据|数据分享|附代码数据
在这文中,我将介绍非线性回归的基础知识。非线性回归是一种对因变量和一组自变量之间的非线性关系进行建模的方法。最后我们用R语言非线性模型预测个人工资数据是否每年收入超过25万
拓端
2023/01/29
1.3K0
【机器学习】——【线性回归模型】——详细【学习路线】
线性回归是最基本的机器学习模型之一,广泛应用于各种科学研究和工程领域。它通过找到数据之间的线性关系来进行预测和解释。本教程将详细介绍线性回归的理论基础、数学原理、实现方法及应用案例,帮助读者全面掌握线性回归模型。
小李很执着
2024/06/19
2830
【机器学习】——【线性回归模型】——详细【学习路线】
广义估计方程和混合线性模型在R和python中的实现
针对某个科学问题,通常会在一段时间内对多个同一研究对象进行多次或重复测量,这类数据一般称为纵向数据。纵向数据具有两个特点,一是研究对象重复;二是观察值可能存在缺失值。上述两个因素导致在探索结果和观测指标相关性分析时,一般线性(linear regression model)或广义线性模型(generalized regression model)以及重复测量方差分析(repeated ANOVA)均不适用。因此,广义估计方程(generalized estimating equations,GEE) 和混合线性模型(mixed linear model,MLM) 被广泛应用于纵向数据的统计分析。
生信学习者
2024/06/11
5060
广义估计方程和混合线性模型在R和python中的实现
深度了解特征工程
Feature:An attribute useful for your modeling task. Feature Selection:From many features to a few that are useful Feature Extraction:The automatic construction of new features from raw data. Feature Construction:The manual construction of new features from raw data. Feature Importance:An estimate of the usefulness of a feature.
马上科普尚尚
2020/09/22
2K0
深度了解特征工程
推荐阅读
相关推荐
MADlib——基于SQL的数据挖掘解决方案(24)——分类之决策树
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文