首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >孟德尔随机化之因果推断的假设(一)

孟德尔随机化之因果推断的假设(一)

作者头像
生信与临床
发布于 2020-09-03 08:39:55
发布于 2020-09-03 08:39:55
2.6K0
举报

‍‍‍

‍‍‍

3.2‍查找有效的工具变量‍‍

‍‍‍‍‍‍‍‍‍‍

工具变量(IV)技术是可用于估算因果效应的几种方法之一,而无需完全了解所有可能影响暴露-结局关系的混杂因素。在这一期中,我们继续回顾和讨论IV的特性,并探讨实际研究中的IV假设是如何被违背的。

‍‍‍3.2.1工具变量假设

‍‍‍‍‍‍

为了使用遗传变量来估计因果效应,它必须满足工具变量的三条关键假设,在前文中已有讲解,这里再强调一下:

1)工具变量与暴露密切相关;‍

2)工具变量与任何影响暴露-结局关联的混杂因素均不相关

3)除非借助与暴露的关联,否则工具变量不会影响结局

这里第一个假设保证了由工具变量定义的遗传亚组的平均暴露水平不同,这样可以确保各亚组之间存在系统的差异。如果就其统计学关联强度而言,遗传变异与暴露没有强烈关联,则称其为弱工具变量(后续会详细介绍)。弱工具变量与无效工具变量是不同的,因为可以通过扩大样本量来使增加弱工具变量的效力。如果单个遗传变异是一个弱工具变量,那么它仍将对因果效应给出有效的检验,但是检测真正因果效应的能力可能很低。可是在分析模型中组合多个弱工具变量以获得单个效果估计会导致误导性推断。第二个假设可以理解为确保遗传亚组之间的其它变量分布均衡,也就是说,所有其他变量在各亚组之间平均分配。第三个假设通常使用条件独立性的概念来表达,也即遗传变异与结局不直接相关,除了暴露以外,没有其他途径可以使遗传变异与结局相关。

‍‍‍3.2.2 IV‍假设的有效性‍‍‍‍

RCT中的随机亚组是可交换的。这意味着,如果每个亚组都接受治疗或控制方案,则预期结果的分布相同。尽管一个人只能暴露于两种治疗方案之一,但是通过将每个亚组暴露于不同的治疗方案中,实际上我们观察到了两个相反的平行空间中的每个种群,并且可以比较每个亚组的平均结果,因而可以一致地估计因果效应,这意味着RCT可以将总体的因果效应估计为总体随机亚组中结果的平均水平之间的差异(由于随机分配给总体,平均水平与总体总体具有相同的特征)。个体的因果效应无法估计,因为个体通常无法同时接受治疗和控制制度。对于孟德尔随机化,IV的关键特性是其独立于竞争风险因素外将人群分为遗传亚组,因此由IV定义的遗传亚组是可互换的。

接下来,我们考虑遗传变异可能不是有效IV的原因。这些问题包括生物学机制,遗传一致性和种群效应。

3.2.3违反IV假设:生物学机制

我们认为可能违反IV假设的第一类原因是由于潜在的生物学机制。

(1)多效性(pleiotropy):多效性是指与多种危险因素相关的遗传变异。如果用作IV的遗传变异与影响结局的其它危险因素相关联,则它就违反了第二或第三个IV假设,并且该遗传变异不是有效的IV。如果遗传变异与能且只能影响暴露的其他因素相关(有时称为垂直多效性),那么就我们的目的而言,这不被视为多效性。例如,FTO基因是饱腹感的决定因素,如果饱食感会且只会影响体重指数(BMI),则FTO基因的遗传变异可以用作BMI的IV。但是,如果FTO基因也与血压相关联,并且这种关联并非完全由该基因与BMI的关联所介导,则我们无法在FTO基因中使用遗传变异做出关于BMI对结局的因果影响。在实际研究中,我们可以通过使用位于基因区域中的遗传变异来尽量减少多效性,因为这些遗传变异的生物学功能已得到很好的理解。例如,对于C反应蛋白(CRP),我们可以在CRP基因中使用已知与CRP水平及调节功能相关的遗传变异,然后评估这些遗传变异与测得的协变量之间的关联,以研究潜在的多效性。

(2)渠化(canalization):渠化或发展补偿是一种现象,个体通过这种机制来适应遗传变化,从而减少这种变化带来的影响,其在基因敲除研究中最明基。因某基因在生物体(通常是小鼠)中完全失活,生物通常会发展一种补偿机制,以允许缺失基因功能得到补偿或替代,从而使基因的功能通过不同的生物学途径表达。遗传效应的这种爆发可能对其他变量产生下游影响。如果具有不同水平的遗传变异的群体不仅在关注的目标方面有所不同,而且在通过渠化机制对其他风险因素方面有所不同,则在孟德尔随机化中,渠化可能是一个问题。从某种意义上说,渠化不违反IV假设,而仅仅是(通常是不希望的)后果。渠化过程与孟德尔随机化评估过程相同,因为渠化过程中其他风险因素的任何变化都是由于遗传变异的因果效应而发生的。然而,孟德尔随机化的目的不仅仅是描述遗传变化的影响,而是评估(非遗传)暴露和结局的因果关系。如果有大量的渠化,孟德尔随机估计可能无法代表在成熟队列中进行的临床干预措施。

3.2.4违反IV假设:非孟德尔式遗传

我们认为违反IV假设的第二种情况是非‍孟德尔遗传,它是指与孟德尔定律不符的遗传方式。

(1)连锁不平衡(linkage disequilibrium):遗传变异被一起遗传的一个特殊原因是他们在同一染色体上的物理接近性(物理距离相近)。分布相关的变异被称为连锁不平衡,与之相对的就是连锁平衡。 LD既有理想的后果,也有不良的后果。如果遗传变异真正独立分布,那么只有真正引起暴露变化的遗传变异(causal variants,也称为因果变异)才能用作IV,因为所有其他遗传变异都不会与暴露相关。实际上,用作IV的遗传变异不一定是因果变异,而只是与因果变异相关。这是因为孟德尔随机化必须将人群简单地分为亚组,这些亚组仅就暴露程度而言会有系统上的不同(如下图所示)。 LD的不良后果是,在分析中使用的与因果变异相关的IV可能会对其它混杂因素产生影响,这将导致违反第二或第三IV假设(类似于由于多效性而引起的违反),针对这种情况我们可以通过检测已知潜在混杂因素与测量变量的关联来减少偏倚。

‍‍

‍‍(2)效应修正(effect modification):效应修正是一个独立于混杂现象的情况,它涉及变量效应(通常是暴露效应)与协变量值之间的统计交互作用,从而导致暴露的因果效应在各个层次之间变化取决于协变量的层次,可能导致效应修正的因素包括但不限于非孟德尔遗传(如表观遗传变异和亲本来源效应)。单独的效应修正不可能违反IV假设;然而,这可能给解释孟德尔随机化带来困难。以饮酒对食道癌风险的影响为例:在日本人口中,只有男性倾向于饮酒,因此,与结局的遗传关联可能仅在男性中观察到,而在女性中可能不存在。如果有生物学原因导致某些不同人群中的遗传关联性增强或减弱(甚至不存在),则在该人群中测得的关联性将不能代表整个人口的影响。但是,这也可能提供验证IV假设的机会------日本女性是日本男性的自然对照组。如果在日本女性中未观察到饮酒与食道癌风险的相同遗传关联,那么这进一步表明与疾病风险的遗传关联是由饮酒驱动的,而不是违反IV假设。

3.2.5违反IV假设:群体效应(population effects)

我们认为可能违反IV假设的最后一种情况是群体效应。

(1)人群分层(population stratification):当被调查的人口可以分为不同的亚群时,就会发生人群分层。例如,当人口是由不同种族的人组成时,可能会发生这种情况。如果遗传变异的频率和暴露的分布在不同的亚群中是不同的,则会导致变异与暴露之间的错误关联,这是由于亚群间的差异而不是遗传变异的影响所致。如果人口结构连续变化,也可能违反IV假设,可以通过将研究人群限制在相同种族背景下来减轻人群分层的影响。不过在定义较为宽泛的族群中仍可能存在系统性差异,比如亚洲人中不同种族的擦差异很明显(比如东亚人和中亚人),因此不建议在具有大量遗传异质性的人群中使用孟德尔随机化方法。

(2)确定性效应(ascertainment effect):确定性效应是指决策者会加重对被认为是确定性结果的选择。在这里是指,如果遗传变异与研究的募集有关,则每个遗传亚组中个体的相对比例与人群中的自然比例不同,因此从样本中得出的因果关系可能并不存在与原始人口中。如果研究人群来自普通人群,那么确定性效应在实际中就不太可能成为主要问题。但是,如果研究队列是怀孕的母亲,并且遗传变异与生育力相关,那么遗传亚组中协变量的分布将有所不同,并且与普通人群中的分布不同,这可能会在因果效应的估计中引入偏倚。在研究患病群体遗传关联的研究中,例如在继发性疾病预防的临床试验中,这也是一个问题。具有较高遗传决定的疾病风险的个体不太可能幸存下来进行研究募集,因此受孕时将个体随机分为遗传亚组的情况在研究人群中将不成立,从而导致遗传关联偏倚。

3.2.6 IV假设的统计评估

尽管我们无法最终证明IV假设的有效性,但可以通过一些测试和评估来尽可能保证IV的有效性。IV有效性的最简单评估是测试遗传变异与已知混杂因素之间的关联,如果暴露与影响结局的协变量关联(不在暴露与结局之间的因果关系上),那么将违反IV的第2条假设。但是,目前还没有确定的方法可以确定与协变量的关联是由违反IV假设(例如由于多效性或连锁不平衡)还是由暴露介导的。此外,我们无法测试该遗传变异是否与无法衡量的混杂因素相关联。如果存在多个协变量和/或遗传变量,则任何假设检验方法都需要考虑每个协变量的多‍重比较,这也导致我们检测真正因果关联的效力下降(假阴性率升高)。另外,由于几个协变量可能相关,所以简单的Bonferroni校正可能是过度校正,一个明智的方法是对遗传亚组与IV偏倚之间的协变量不平衡进行定量和定性评估,并与假设检验结合。检测IV有效性的另一种方法是观察遗传变异与结局之间的关联是否会因风险因素的调整而减弱。如果有多个遗传变异,每个变异都是有效的IV,则可以依次计算单个IV的效应。假设每个IV以相似的方式影响暴露,即使与暴露的遗传关联程度不同,单独的IV估计值也应相似。我们可以通过绘制IV与暴露程度和结局的关联图进行评估:如下图所示,可以预料这些IV的效应在一条直线。我们也可以使用多种方法来计算这些IV的异质性,后续会和大家详细介绍。在孟德尔随机化中,使用某种特定遗传变异作为IV的任何理由都应以生物学知识而非统计学检验为基础。‍

‍‍

‍‍

‍‍

3.2.7与IV有效性有关的问题总结

IVs的有效性对于孟德尔随机化至关重要。我们认为,将遗传变异作为IV的选择应主要通过基本生物学知识来证明,但也可以通过统计检验来证明。我们应当根据IV假设的合理性对孟德尔随机化结果给予恰当的解释,尤其是当对IV假设的证明主要是经验性的那些假设时,我们更需要十分慎重。这表明来自候选基因研究的变异,其中遗传变异的功能得到了很好的理解,与在基因编码区以外的变异(例如在全基因组范围内发现的变体)相比,在孟德尔随机研究中使用它们的可信度更高。不过,我们应该记住:所有用于评估因果效应的统计方法都依赖于一些无法检验的假设,因此,即使IV假设的有效性可能无法完全满足,孟德尔随机化对于确定暴露和结局间的因果关系也具有重要作用。值得一提的是:英国对一组献血者中遗传变异和非遗传因素(例如环境暴露)的分布以及人群中的代表性样本的研究显示,非遗传因素存在显着差异,但遗传因素并没有产生比偶然预期更多的差异,表明遗传因素似乎在英国人口中独立于可能的混杂因素而分布。这为遗传变异体作为IV的一般适用性提供了合理性,但在每种特定情况下,假设的论证都依赖于有关遗传变异的生物学知识。

‍‍

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-09-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信与临床 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
孟德尔随机化之Wald ratio方法(二)
有时候,IV可能无法将遗传亚组依据不同暴露层次单纯分为两组。这时候,一般会出现3个遗传亚组:AA(主要纯合子,majorhomozygote),AA(杂合子,heterozygote)和aa(次要纯合子,minor homozygote),这三个水平分别称为0、1和2,分别对应于次要等位基因的数目。在加性模型中,我们假设遗传变异的次要等位基因拷贝数与暴露因素水平成正比。在等位基因得分(allele score)与暴露也是线性相关的假设下,IV也可以是等位基因得分(连续型变量)。
生信与临床
2022/08/21
1.1K0
孟德尔随机化之Wald ratio方法(二)
工具变量的生物学合理性评估指南​---Bradford Hill指南
在目前的大量孟德尔随机化研究中,很多研究者只是单纯考虑单核苷酸多态性(SNP)的统计学显著性而忽视了一个非常重要的点------SNP的生物学相关性,这可能是因为SNP的生物学相关性评估起来比较繁琐,但切记不能因为繁琐而忽视这点,否则孟德尔随机化研究很可能就陷入“套路化“,但孟德尔随机化其实是个性化很强的研究方法,其个性化主要体现在工具变量(IV)的选择,米老鼠下面和大家按照Bradford Hill指南,和大家讨论一下“判断遗传变异作为工具变量的生物学合理性”。
生信与临床
2022/12/20
7970
工具变量的生物学合理性评估指南​---Bradford Hill指南
孟德尔随机化之脂蛋白(a)与心肌梗死的因果关系
今天和大家分享一篇研究脂蛋白(a)和心肌梗死因果关联的孟德尔随机化研究,原文标题如下:
生信与临床
2022/08/21
5150
R语言实现孟德尔随机化研究
孟德尔随机化(Mendelian Randomization, MR)是近几年流行起来的用来进行因果推断的有效方法,它以遗传变异为工具变量来推导结局和暴露的因果关系,能有效避免传统流行病学研究的混杂偏
一粒沙
2020/11/16
11.5K0
R语言实现孟德尔随机化研究
【流行病学大背景下】:孟德尔随机化的现在与未来
GWAS(Genome-wide association studies) 是 20 世纪最后 25 年由假设驱动的候选基因关联研究(CGAS)演变而来的。随着技术的发展,无偏见的全基因组搜索成为可能。随着技术的发展,无偏见的全基因组成为可能。然而,与候选基因关联研究一样,这些研究最初也是为了产生两类有价值的知识:首先,研究人员希望发现疾病起源的潜在分子机制,特别是确定所有相关基因和基因变异(即疾病因果关系)。
生信菜鸟团
2023/10/06
1.6K0
【流行病学大背景下】:孟德尔随机化的现在与未来
孟德尔随机化系列1
孟德尔随机化(Mendelian Randomization, MR)是近几年流行起来的用来进行因果推断的有效方法,它以遗传变异为工具变量来推导结局和暴露的因果关系,能有效避免传统流行病学研究的混杂偏倚。如图所示,它的研究建立在三个假说之上:1)工具变量和暴露因素强相关;2)工具变量和混杂因素不相关;3)工具变量与结局不直接相关,它对结局的作用只能通过暴露来体现。
生信与临床
2020/08/06
2.1K0
孟德尔随机化系列1
孟德尔随机化之肥胖(BMI)与高血压的因果关系
今天我将和大家介绍篇关于肥胖和高血压的孟德尔随机化研究,原文标题如下: “Does greater adiposity increase blood pressure and hypertension
生信与临床
2022/08/21
8510
孟德尔随机化之结果的解读与外推(一)
在前面的内容中,我们讨论了因果关系的含义,并介绍了使用工具变量(IV)估算因果效应的方法和示例。在本章中,我们考虑对孟德尔随机化估计的因果效应的解释,并讨论在何种情况下孟德尔随机化估计的结果可以作为临床实践的可靠指南。
生信与临床
2022/08/21
1.6K0
孟德尔随机化之因果推断的假设(三)
在遗传变异是有效IV的假设下,可以通过检测遗传变异和结局的独立性来评估暴露对结局的因果影响的假设,其中非零关联表示因果关系,当然我们也可以通过对遗传变异和结局进行直接回归来检验效应的存在与否和方向,这是最朴素的孟德尔随机化思想。
生信与临床
2022/08/21
1.1K0
两步孟德尔随机化(two step MR)研究简介
在上期内容中,我和大家介绍了双向孟德尔随机化研究,今天我将简单介绍一下两步孟德尔随机化研究(two step Mendelian randomization,two step MR)。与双向MR相似的是,两步MR也是由两次双样本MR分析构成,具体原理如下图所示:
生信与临床
2022/08/21
4.8K0
两步孟德尔随机化(two step MR)研究简介
孟德尔随机化之研究背景
久违的孟德尔随机化开始更新了,在今天的内容中,我将向大家介绍孟德尔随机化的基本概念及其背景知识,并举例说明何时可以使用该方法以及该方法为何能有效解释因果关系。本系列讲解内容主要基于Stephen Burgess和Simon G. Thompson共同撰写的孟德尔随机化图书。
生信与临床
2020/08/06
1.4K0
孟德尔随机化之研究背景
孟德尔随机化之F统计量
在孟德尔随机化研究中,有一个很重要的问题就是弱工具变量偏倚(weak instrument bias)。弱工具变量是指解释暴露的效力较低的遗传变异,它和暴露有关联,但是这种关联强度不是很高,因此它与无效工具变量有本质区别。一般情况下,产生弱工具变量偏倚的主要原因是样本量不足。
生信与临床
2022/08/21
4.2K0
孟德尔随机化之F统计量
Bioinfo01-孟德尔随机化
这是我之前关于孟德尔随机化相关课题的一个简单笔记。其中包括了关于孟德尔随机化的简单介绍,以及一些one-sample MR 的R 语言实战。
北野茶缸子
2022/05/19
4K0
Bioinfo01-孟德尔随机化
孟德尔随机化之结果的解读与外推(二)
今天我们提供一些示例来说明孟德尔随机化估计值与其他流行病学方法的估计值之间的差异,例如随机对照试验(RCT)的效果估计,以及多变量调整回归模型的观测关联。
生信与临床
2022/08/21
1.8K0
孟德尔随机化之结果的解读与外推(二)
孟德尔随机化之Wald ratio方法(三)
在流行病学应用中,疾病通常是人们关注的结局,而疾病的结局通常是二分类变量(即只有患病和无病两种情况)。在这里,我将使用流行病学术语定义具有结局事件的个体为病例(Y=1),将没有结局事件发生的个体作为对照(Y=0)。比率估计的定义与连续型结局变量的定义类似:比率方法对数风险比率估计(二分法IV)= ∆Y/∆X= (y1‘ − y0)/(x1’−x0’) 。其中yi’通常是遗传亚组i中结局事件发生概率的自然对数,或者是“风险比”的自然对数。这里的风险比率(riskratio)是一个泛指,它包括相对危险度(relative risk, RR)或者优势比(odds ratio,OR)。当IV是多分类或者连续型变量时,用于比值估计的系数βY|G^取自Y在G上回归的结果。原则上我们使用的回归模型可以是线性的,其中IV估计值表示暴露单位发生变化后引起的结局事件概率的变化。但是对于二分结果,我们通常首选对数线性或逻辑回归模型,其中IV估计值分别表示暴露单位变化的对数相对风险或对数比值比。对于Logistic模型,估计比值比取决于模型中选择的协变量。
生信与临床
2022/08/21
1.4K0
孟德尔随机化之Wald ratio方法(三)
MR文献导读(一):通过孟德尔随机化分析确定多发性硬化症的潜在药物靶点
多发性硬化症是一种复杂的自身免疫性疾病,目前已开发出多种治疗多发性硬化症的疗法,并得到广泛应用。
生信菜鸟团
2023/08/23
7.9K0
MR文献导读(一):通过孟德尔随机化分析确定多发性硬化症的潜在药物靶点
孟德尔随机化之基础概念与研究框架
在本期中,我将说明孟德尔随机化的基础概念与研究框架,并解释如何使用孟德尔随机化去解决常规流行病学问题。
生信与临床
2020/08/06
3.9K1
孟德尔随机化之基础概念与研究框架
孟德尔随机化之纤维蛋白原与冠心病的因果关系
文章开始前,先和大家介绍“生信与临床”的新成员‍‍Ammy‍‍,同样也是本文的作者:
生信与临床
2022/08/21
4820
孟德尔随机化之遗传学概述
许多生物的遗传信息(或基因组)由长长的一串遗传密码组成,这些遗传密码以DNA(脱氧核糖核酸)的形式存在,DNA是编码生命的分子,被包装成染色体。人类有23对染色体,每对染色体中的一条来自母亲,一条来自父亲。染色体包含基因,这些基因是遗传密码的可定位区域,编码一个可遗传信息单元,但是并非所有的遗传序列都属于基因区域,并且染色体的大部分由称为非编码DNA的中间遗传物质组成。每个染色单体有两条链,每条链由一个可以由字母A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)和G(鸟嘌呤)表示的核苷酸序列组成。这些核苷酸链以互补方式配对(A与T配对,C与G配对),这样每个链包含相同的信息,因此仅考虑其中一个链。
生信与临床
2020/08/06
8990
【孟德尔随机化】02文献复现(一)
所以题目中的“single-cell”并非真正意义上的单细胞数据,而是整合了GTEx中49种组织和EyeGEx视网膜组织的e/sQTL数据。
生信菜鸟团
2024/03/18
6670
【孟德尔随机化】02文献复现(一)
推荐阅读
相关推荐
孟德尔随机化之Wald ratio方法(二)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档