首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >stata对包含协变量的模型进行缺失值多重插补分析

stata对包含协变量的模型进行缺失值多重插补分析

作者头像
拓端
发布2020-07-17 11:15:23
发布2020-07-17 11:15:23
3.4K0
举报
文章被收录于专栏:拓端tecdat拓端tecdat

原文链接:http://tecdat.cn/?p=6358

多重插补已成为处理缺失数据的常用方法 。 我们可以考虑使用多个插补来估算X中的缺失值。接下来的一个自然问题是,在X的插补模型中,变量Y是否应该作为协变量包含在内?

Stata

为了说明这些概念,我们在Stata中模拟了一个小数据集,最初没有缺失数据:

代码语言:javascript
复制
gen x = rnormal()
gen y = x + 0.25 * rnormal()
twoway(scatter yx)(lfit yx)

在任何数据缺失之前,Y对X的散点图

接下来,我们将X的100个观察中的50个设置为缺失:

代码语言:javascript
复制
gen xmiss =(_ n <= 50)

插补模型

在本文中,我们有两个变量Y和X,分析模型由Y上的Y的某种类型的回归组成(意味着Y是因变量而X是协变量),我们希望生成这样的插补我们得到Y | X模型中参数的有效估计。

输入X忽略Y

假设我们使用回归模型来估算X,但是在插补模型中不包括Y作为协变量。我们可以在Stata中轻松完成此操作,为每个缺失值生成一个估算值,然后根据X的结果推算值或观察到的X(当观察到它时)绘制Y:

代码语言:javascript
复制
mi impute reg x,add(1)

Y对X,其中缺少X值而忽略了Y.

清楚地显示了在X中忽略Y的缺失值的问题 - 在我们已经估算X的那些中,Y和X之间没有关联,实际上应该存在。

将结果考虑在内的

假设如果我们反过来将X结果考虑为Y(作为X的插补模型中的协变量),则会发生以下步骤。X | Y的插补模型将使用观察到X的个体来拟合。由于我们假设X在Y处随机丢失,因此完整的案例分析拟合是有效的。因此,如果实际上X和Y之间没有关联,我们应该(在期望中)在这个完整的情况下找到它。

要继续我们的模拟数据集,我们首先丢弃之前生成的估算值,然后重新输入X,但这次包括Y作为插补模型中的协变量:

代码语言:javascript
复制
 mi impute reg x = y,add(1)

Y对X,其中使用Y估算缺失的X值

多重插补中的变量选择

选择要包含在插补模型中的变量时的一般规则是,必须包括分析模型中涉及的所有变量,或者作为被估算的变量,或者作为插补模型中的协变量。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-06-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 拓端数据部落 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 原文链接:http://tecdat.cn/?p=6358
  • Stata
  • 插补模型
  • 输入X忽略Y
  • 将结果考虑在内的
  • 多重插补中的变量选择
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档