首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >如何找出因变量的一个子集是否比同一变量的另一个级别在统计上更有意义

如何找出因变量的一个子集是否比同一变量的另一个级别在统计上更有意义
EN

Stack Overflow用户
提问于 2020-09-01 20:33:34
回答 1查看 66关注 0票数 1

我有一个假设:对动车组内部的人来说,对动车组的支持比在动车组之外的人更重要。

变量如下: EMU: 1,在EMU内;0,在EMU外EU_Support: 1,支持;0,不支持

我的代码如下所示:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
EB734_May_2010_model_u <- glm(trust ~ D_economy + (Support_EMU*EMU), family = binomial, data = EB734_May_2010)

如果这是测试事物假设的正确方法,有人能帮我吗?

非常感谢!

EN

回答 1

Stack Overflow用户

发布于 2020-09-01 21:01:41

我编造了一些假数据来帮助说明这一点。以下是数据和模型:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
df <- tibble(
  EMU = sample(c(0,1), 1000, prob=c(.75,.25), replace=TRUE), 
  Support_EMU = sample(c(0,1), 1000, replace=TRUE), 
  z = rnorm(1000), 
  eta = EMU + .25*Support_EMU + 2*Support_EMU*EMU + z, 
  p = plogis(eta), 
  y = rbinom(1000, 1, p)
)

mod <- glm(y ~ EMU*Support_EMU + z, data=df, family=binomial)
summary(mod)

# Call:
#   glm(formula = y ~ EMU * Support_EMU + z, family = binomial, data = df)
# 
# Deviance Residuals: 
#   Min       1Q   Median       3Q      Max  
# -2.7554  -0.9769   0.3717   0.9175   2.3001  
# 
# Coefficients:
#                 Estimate Std. Error z value Pr(>|z|)    
# (Intercept)      -0.0601     0.1115  -0.539  0.58977    
# EMU               1.3788     0.2661   5.183 2.19e-07 ***
# Support_EMU       0.3237     0.1582   2.046  0.04080 *  
# z                 0.9455     0.0878  10.768  < 2e-16 ***
# EMU:Support_EMU   1.4732     0.4897   3.008  0.00263 ** 
# ---
# Signif. codes:  0***0.001**0.01*0.05.0.1 ‘ ’ 1
# 
# (Dispersion parameter for binomial family taken to be 1)
# 
# Null deviance: 1344.4  on 999  degrees of freedom
# Residual deviance: 1090.0  on 995  degrees of freedom
# AIC: 1100
# 
# Number of Fisher Scoring iterations: 5

你真正感兴趣的是评估交互的效果。你真的想要上面方程关于预测概率的第二个差。也就是说,您希望(对于E=EMU和S=Support_EMU):

Pr(y=1|E=1,S=1,z) - Pr(y=1|E=1,S=0,z)-Pr(y=1|E=0,S=1,z) -Pr(y=1|E=0,S=0,z)

另一种说法是:

E=1时的S效应- E=0时的S效应

我编写的包中的secondDiff()函数,DAMisc就是这样做的。它使用参数bootstrap来计算效果的置信区间。这样做的一种方法是使用“合理值的边际效应”(MER)方法,其中我们将所有未参与交互作用的变量保持在中位数。这里的结果是:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
s1 <- secondDiff(mod, c("EMU", "Support_EMU"), df, method="MER")
summary(s1)
# Second Difference Using the Marginal Effect at Typical Values Approach
# 
# Average Second Difference: 0.087, 95% CI: (-0.019,0.203)

这意味着,平均而言,当EMU为1时,使用MER方法将S从0更改为1的第一个概率差比EMU为0时大0.087。然而,置信区间表明,这在统计上没有显著差异。或者,您可以使用“平均边际效应”(AME)方法。在这里,我们分别计算每个观察值的第二个差异,每个观察值保持所有其他变量在数据集中的观测值。这为我们提供了第二个不同的观察结果。然后,我们将这些第二个差异的平均值作为效果。这就是它看起来的样子。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
s2 <- secondDiff(mod, c("EMU", "Support_EMU"), df, method="AME")
summary(s2)

# Second Difference Using the Average Marginal Effect Approach
# 
# Overall: 
#   Average Second Difference: 0.114, 95% CI: (0.005,0.224)
# 
# Individual:
#   Significant Negative Individual Second Differences: 0 
#   Significant Positive Individual Second Differences: 369 
#   Insignificant Individual Second Differences: 631 

这意味着(在所有观察中)平均而言,当EMU=1为.114时,S的影响大于EMU=0时S的影响,根据置信区间,这在统计上是显着的。输出的另一部分表明,在1000秒的差异中,631秒是微不足道的,369秒是显着和积极的。

您可以安装最新版本的DAMisc软件包,方法是先安装remotes软件包,然后执行以下操作:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
remotes::install_github("davidaarmstrong/damisc")

至于AME和MER方法之间的区别,有一篇有趣的文章,主题是Michael Hanmer和Ozan Kalkan写的here

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63695081

复制
相关文章
如何快速找到并验证影响因变量Y的自变量X呢?
声明:本文讨论主题的不是严谨意义上的“因果关系”,而是探讨自变量与因变量的关系(实际上不是真的因果关系),主要关注点在于找到并验证影响(或预测)因变量Y的自变量X。
1480
2019/06/19
1.8K0
如何快速找到并验证影响因变量Y的自变量X呢?
特征工程(完)
这也是特征工程系列最后一篇文章,介绍特征提取、特征选择、特征构建三个工作,通常特征工程被认为分为这三方面的内容,只是我将前面的数据&特征预处理部分都加入到这个系列。
kbsc13
2019/08/16
9360
判断一个类是否另一个类的父类
我们调用Class中isAssignableFrom函数来判断左边的类是否参数中这个类的超类(父类)
阿超
2022/08/16
6270
判断一个类是否另一个类的父类
如何知道一个变量的分布是否为高斯分布?
“你的输入变量/特征必须是高斯分布的”是一些机器学习模型(特别是线性模型)的要求。但我怎么知道变量的分布是高斯分布呢。本文重点介绍了保证变量分布为高斯分布的几种方法。
deephub
2021/03/10
1.7K0
如何知道一个变量的分布是否为高斯分布?
java定义全局变量的方法_java调用另一个类的变量
1、单独写一个final的类,在里面定义final static的全局变量,在其它程序里包含进来就可以了。
全栈程序员站长
2022/09/24
2.6K0
看我如何定位骗子,找出幕后诈骗的黑手(上)
临近年末,很多诈骗犯已经跃跃欲试了,用各种套路来坑你的血汗钱,所以我们要用所学到的东西来保护自己,其实I春秋社区有一个神秘的讨论组,每天就是抓骗子,帮妖妖灵的蜀黍干点杂货,惩恶扬善,具体找坏蛋咨询 为了写好这篇文章,列了一个大纲,对比来看,会比较容易看 因篇幅较长,所以打算分成两篇来写 第一篇:QQ定位+ip定位+常见钓鱼方法及反击+诈骗模式 第二篇:诈骗心理学+行为习惯+常见木马诈骗及反击+另类工具使用擒获幕后黑手
HACK学习
2019/08/07
11.3K4
看我如何定位骗子,找出幕后诈骗的黑手(上)
一文解决筛选低变化的基因/变量(R语言)
(1)在日常生信分析中,经常遇到的问题是需要在做差异分析或者生存分析或者相关分析、WGCNA等等分析时,经常一个卡住许多分析者的步骤是基因或者变量太多,导致分析速度太慢或者无法分析。所以这一次的笔记是提供一个初筛的过程,在做其他的生信相关分析以前,筛选掉一些几乎在样本中没有变化或者变化较低的基因或者变量,从而大大的缩减生信分析所需的时间或者资源。 (2)在大规模生信分析时,当基因数目很大时,对每一个基因进行单因素分析比较慢,所以一个比较能够节省资源的做法是,将原先为数值类型的表达矩阵转化为‘low’,‘high’样式的表达矩阵。这样的优势为:第一可以大大的节省生信分析所需的资源或者时间,对笔记本要求比较低。第二这样做出来的生存分析与KM生存曲线是相对应的,这样不会遇到某些基因在连续型变量的单因素分析与KM生存曲线法生存分析所得到的的P值存在典型差异。
用户1359560
2019/10/10
1.6K0
一文解决筛选低变化的基因/变量(R语言)
10种受欢迎的数据挖掘的实用分析方法
数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,本文将介绍数据挖掘中十种实用分析方法。
挖掘大数据
2018/01/17
7480
10种受欢迎的数据挖掘的实用分析方法
干货 | 数据挖掘中的十大实用方法,可能你并不一定都熟悉!
关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 目录 基于历史的MBR分析 购物篮分析 决策树 遗传算法 聚类分析 连接分析 OLAP分析 神经网络 判别分析 逻辑回归分析 1.基于历史的MBR分析 基于历史(Memory-Based Reasoning)的MBR分析方法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute),通常找寻最相似的案例来做比较。 MBR中有两个主要的要素
昱良
2018/04/08
8960
数据挖掘中的十大实用分析方法
1.基于历史的MBR分析 基于历史(Memory-Based Reasoning)的MBR分析方法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute),通常找寻最相似的案例来做比较。 MBR中有两个主要的要素,分别为距离函数(distance function)与结合函数(combination function)。距离函数的用意在找出最相似的案例;结合函数则将相似案例的属性结合起来,以供预测之用。 MBR的优点是它容许各种型态的数据,这些数据不需服从某些假设。另一个优点
企鹅号小编
2018/02/20
1.1K0
数据挖掘中的十大实用分析方法
SPSS(二)SPSS实现多因素方差分析模型(图文教程+数据集)
单因素方差分析上一篇博客https://blog.csdn.net/LuYi_WeiLin/article/details/89917656已经介绍完毕
全栈程序员站长
2022/11/01
6.5K0
SAS-如何找出数据集超长变量及观测,并自动进行变量的拆分...
前段时间有人给小编提了一个需求,找出数据集中长度超过200字节的变量,并对变量进行拆分...这个需求当然不难,但是还是分享给大家~主要最近没写啥程序,也就没学到啥新的技能...关于变量长度的拆分,我想也是一个常见的问题。
Setup
2019/10/20
3.7K0
一个集合是否包含另一个集合「建议收藏」
import java.util.ArrayList; import java.util.Arrays; import java.util.List;
全栈程序员站长
2022/08/09
1.4K0
LeetCode 1863. 找出所有子集的异或总和再求和(DFS)
一个数组的 异或总和 定义为数组中所有元素按位 XOR 的结果;如果数组为 空 ,则异或总和为 0 。
Michael阿明
2021/09/06
6470
结构方程模型 SEM 多元回归和模型诊断分析学生测试成绩数据与可视化
本文首先展示了如何将数据导入 R。然后,生成相关矩阵,然后进行两个预测变量回归分析。最后,展示了如何将矩阵输出为外部文件并将其用于回归。
拓端
2021/12/15
3.1K0
结构方程模型 SEM 多元回归和模型诊断分析学生测试成绩数据与可视化
R语言有序logistic回归-因变量为等级资料
“医学和生信笔记,专注R语言在临床医学中的使用、R语言数据分析和可视化。主要分享R语言做医学统计学、临床研究设计、meta分析、网络药理学、临床预测模型、机器学习、生物信息学等。
医学和生信笔记
2022/11/15
2K0
R语言有序logistic回归-因变量为等级资料
【温故知新】应用多元统计分析 第四章 回归变量的选择与逐步回归 多因变量的多元线性回归
4.2回归变量的选择与逐步回归 一、变量选择问题 1、选择“最优”回归子集的方法 1)“最优”子集的变量筛选法 2)计算量很大的全子集法 3)计算量适中的选择法 2、变量选择的几个准则 (1)残差平方
统计学家
2019/04/10
1.8K0
【温故知新】应用多元统计分析 第四章 回归变量的选择与逐步回归  多因变量的多元线性回归
如何用机器学习方法进行数据建模?(文末福利)
当前,信息化建设的第三波浪潮正扑面而来,信息化正在开启以数 据的深度挖掘和融合应用为主要特征的智能化阶段(信息化 3.0)。随着互 联网向物联网(含工业互联网)延伸而覆盖物理世界,“人机物”三元融 合的发展态势已然成型,除了人类在使用信息系统的过程中产生数据以 外,各种传感器、智能设备也在源源不断地产生数据,并逐渐成为数据 最重要的来源。
AI科技大本营
2018/12/24
1.2K0
如何用机器学习方法进行数据建模?(文末福利)
网络上的另一个我 | 00后人设剖析
腾讯ISUX isux.tencent.com 社交用户体验设计 生活是一个戏剧化的表演过程,人设就是这场演出的主角。回望过去,你是否还记得那些精心设置过的头像和兴趣标签?时间来到现在,00后们已经站上了社交的中心舞台。他们有着丰富的物质条件,他们伴随着手机长大,他们说着扩列、cqy、后宫同好宿敌这些“黑话”。 当00后们为自己的线上社交打造人设时,其表现会有什么不同?回归设计本身,有哪些不变的技巧可以帮助用户建立和应用人设呢?带着这些疑惑,本“老阿姨”卧底扩列群,遍历新兴的社交应用,带你康
腾讯ISUX
2020/04/03
8410
点击加载更多

相似问题

统计虚拟变量作为因变量回归

16

统计:如何识别数据集中的因变量和自变量?

12

是否有一个R函数使y轴百分比变因变量而不是全观测因变量?

13

不同因变量R上的ANOVA

31

如何检查一个3级嵌套列表是否是另一个3级嵌套列表的子集

110
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文