前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >孟德尔随机化理论知识一站式学习

孟德尔随机化理论知识一站式学习

作者头像
用户11414625
发布2024-12-20 14:57:08
发布2024-12-20 14:57:08
2990
举报
文章被收录于专栏:生信星球520生信星球520

应用孟德尔随机化方法推断暴露因素与健康结局的因果关系

Inferrence the causility between exposures and healthy outcomes using mendelian randomization approaches

本文是根据首都医科大学的王友信教授的课程所做的笔记,主线内容来自视频讲解,原视频在:https://www.bilibili.com/video/BV1ea411M73y/ 另有一些内容参考自两篇相关的中文文献: 孟德尔随机化法在因果推断中的应用 http://html.rhhz.net/zhlxbx/20170427.htm#Figure4 孟德尔随机化研究应用于因果推断的影响因素及其结果解读面临的挑战 http://html.rhhz.net/zhlxbx/20200813.htm 其它名词解释大多数来自于MR词典 https://mr-dictionary.mrcieu.ac.uk/

0.临床研究方法

因果与因果推断是流行病学研究的核心问题。 举例:打流感疫苗vs没打流感疫苗,得新冠的可能性不一样。可以发现打不打疫苗和得新冠之间存在关联,但不能确定是否是因果关系。因果关系才能干预,关联只能提供线索。

做得最多的是分析性研究和实验性研究,分析性研究用于产生假设,样本量比较大的分析性研究可用于检验假设。推断因果关系最可靠的方法是临床试验中的随机对照试验(randomised controlled trial,RCT)观察性研究执行难度低,但证据等级弱; 实验性研究证据等级强,但执行难度高; 孟德尔随机化的执行难度和证据等级都介于观察性和实验性研究之间。

1. 孟德尔随机化方法的介绍

(1)基本思想

遵循亲代等位基因随机分配给子代的孟德尔第二定律(自由组合定律)

尘封的高中生物记忆啊。。。

遗传学三大基本定律: 基因分离定律:在生物的体细胞中,控制同一性状的遗传因子成对存在,不相融合;在形成配子时,成对的遗传因子发生分离,分离后的遗传因子分别进入不同的配子中,随配子遗传给后代。 自由组合定律:当具有两对(或更多对)相对性状的亲本进行杂交,在子一代产生配子时,在等位基因分离的同时,非同源染色体上的非等位基因表现为自由组合。 基因的连锁和交换定律:生殖细胞形成过程中,位于同一染色体上的基因是连锁在一起,作为一个单位进行传递,称为连锁定律。在生殖细胞形成时,一对同源染色体上的不同对等位基因之间可以发生交换,称为交换定律或互换定律。

(2)应用模型
  • 基因型决定中间表型②:选择合适的遗传变异作为工具变量,替代无法进行实验性研究的待暴露因素(研究因素)。 测量遗传变异与中间表型(暴露)②、遗传变异与疾病结局之间的关联①,进而推断暴露与结局疾病之间的关联③。
(3)孟德尔随机化与随机对照试验的对比

随机对照试验为什么能推断因果? 样本是随机分组的,也正是通过随机分组,校正了已知和未知的混杂因素。分组之后再暴露,因果的顺序是从因到果,结局的不同就是由干预导致的。 孟德尔随机化为什么能推断因果? 等位基因随机分离与随机分组相似,基因与疾病结局的关联不会受到出生后的环境、社会经济地位、行为因素等常见混杂因素的干扰,因果顺序也正确。

(4)孟德尔随机化的核心假设

MR设计的最关键步骤是寻找合适的遗传变异作为工具变量。 合适的工具变量应满足以下假设: G must be reliably associated with E --关联性假设 G should be not associated with U --独立性假设 G should be not independently associated with O,except through E -- 排他性假设

(5)工具变量的选择

选择工具变量的方法一般包括两种: ① 选择与目标暴露因素有直接强关联(robust)的遗传变异,如与血清CRP水平直接相关的CRP基因变异(SNPs),与酒精代谢直接相关的乙醇脱氢酶1b(ADH1B)基因变异,与白介素6受体水平相关的IL6R基因变异等; ② 从全基因组关联研究(genomic wide association study,GWAS)数据库获得遗传工具变量,目前全球GWAS研究目录显示(http://www.ebi.ac.uk/gwas/)超过1万条有潜在功能学意义的SNP,其中4 000个以上的SNPs与相应表型有唯一关联,可以从中筛选合适的工具变量。

2.常见的MR研究设计方法及特点

(1)单样本MR

暴露和结局来自同一样本; 直接计算一两阶段最小二乘法(2SLS,2 stage least squared method) 根据结局变量类型,采用不同统计方法:连续型结局-线性回归/二分类结局-logistic回归; 优点:采用个体级别数据,可控制混杂因素; 缺点:样本量有限,影响统计效能。

补充:单样本MR使用的个体级别的数据涉及个人隐私,通常需要获取权限,而两样本MR使用的摘要数据是公开的。

(2)两样本MR

暴露和结局来自相同人群的两个独立样本 要求两样本具有相似的年龄,性别和种族分布持征 优点:样本量较大(几十万上百万),统计效能更高 缺点:混杂偏倚

(3)双向MR

到底是暴露影响结局,还是结局影响暴露呢? 例:睡眠和糖尿病,是睡眠质量差引起了糖尿病,还是因为得了糖尿病才睡眠质量差?如果只做单方向的MR,不能完全解释他们的关系,所以要做双向的。

  • 有利于解决因果关联的方向问题
  • 但在分析未知生物学效应的两个变量时,要防止被双向MR的结果误导。
  • 任何研究都怕检验效能不足的问题,不能盲目解释它们之间的关系。
(4)两阶段MR

Mediator:中间变量,表观遗传指标

  • 需使用遗传工具来评价因果关联的可能中间变量(mediator),探讨暴露因素是否通过表观遗传指标(mediator)而导致疾病发生
  • 方法须满足exposure-mediator和exposure-outcome之间的关联呈线性以及同质性的假设前提
  • 已被延伸为分析复杂因果网络关系的基础,如网络MR设计(network MR)
(5)多变量MR

有多个暴露因素,且他们之间存在关联,由共同的遗传变异决定。

(6)Factorial MR

根据genetic sore是否高于中位数、是否干预,最终分为了4个组。

genetic sore也叫Polygenic risk score (PRS): A single variable that is produced by aggregating information from several SNPs that associate with a trait/phenotype and that can be used in prediction or causal analyses (i.e., MR). 另一解释:多基因评分(Polygenic Risk Scores)是与特定性状(包括行为、特征或疾病)相关的有效等位基因作用(即遗传基因影响)的加权和,可用于估计一个人出现某种生理/心理特征、罹患某种疾病的风险。 关于PRS图文并茂的解释: https://zhuanlan.zhihu.com/p/368701300 https://polygenicscores.org/explained/

3.工具变量假设的常见偏倚及处理策略

标准的方法需要完全满足三大核心假设。实际情况需要一些降低偏倚的策略。

名词解释

弱工具变量:当遗传变异与暴露因素不具有强相关关系,或者遗传变异仅能解释小部分的表型变异时,称为“弱工具变量”。 碰撞偏倚(Collider bias):In an epidemiological setting, a collider is a variable that is caused by both the exposure and the outcome of interest. Collider bias occurs when a model is adjusted for a collider or the descendant of a collider. 另一解释:当暴露和结局(或导致结局发生的因素)都影响第三个共同变量,并且该变量/碰撞变量在研究设计或统计分析中被控制时,就会发生碰撞偏倚。碰撞偏倚通常是通过控制暴露或干预后发生的变量而无意中引入的。 https://zhuanlan.zhihu.com/p/543108550 水平多效性:Also known as “genuine” or “true” pleiotropy. This is when a genetic variant affects other traits which influence the outcome independently of the hypothesised exposure. 即:遗传变异通过影响其他性状而影响结局,与暴露因素无关。 连锁不平衡 (linkage disequilibrium) LD is the non-random occurrence of genetic variants in the population, produced due to the chromosomal sections of genetic material inherited, such that alleles for genetic variants close together are always co-inherited unless randomly segregated by recombination. LD是人群中遗传变异的非随机发生,由于遗传物质的染色体部分遗传而产生,因此基因组位置相近的遗传变异总是共同遗传的,而不是通过重组随机分离。 人群分层(Population stratification):是指遗传变异频率在不同遗传背景的人群间存在差异,导致遗传变异与结局之间出现虚假关联。

4. 工具变量的多效性

基因多效性的存在违反了独立性假设和排他性假设

鉴于所有表型都存在遗传成分,而表型变异远超基因型变异,因此,多效性(单一遗传变异影响多个表型)的现象非常普遍

为了可靠的因果推理,推测多效性作用的模式至关重要:SNP是否通过暴露而影响结果

mdeiator是中间变量,related variable是相关的、其他的变量。

d:工具变量不通过暴露因素影响结局,不符合核心假设。

5. 两样本MR常用的因果效应估计方法

一致性假设就是使用该方法的要求。 用IVW作主效分析,其他方法作为敏感性分析

6. 工具变量的异质性和多效性检验方法

7. MR数据库及生信工具

(1)MR-Base

https://www.mrbase.org/ GWAS summary database of more than 1100 GWAS traits and online platfom to automate MR

(2)MR-PRESSO

https://github.com/rondolab/MR-PRESSO R package that allows for the evaluation of pleiotropy in mult-instrument Mendelian Randomization

(3)TwoSampleMR

https://github.com/mrcieu/TwoSampleMR R package for MR analysis,directly links to MR-Base database via API

(4)MendelianRandomization

https://cran.r-project.org/web/packages/MendelianRandomization/ R package for MR analysis.links to Phenoscanner database

(5)mrrobust

https://github.com/remlapmot/mrrobust STATA package for MR analysis

(6)summary-data-based Mendelian Randomization(SMR)

https://yanglab.westlake.edu.cn/software/smr/#Overview linux package for MRanalysis for testing expression QTL on complex diseases

(7)PHESANT

https://github.com/MRCIEU/PHESANT R package for performing phenome scans in UK Biobank, including MR phenome-wide association studies (MR-pheWAS)

(8)PhenoSpD

https://github.com/MRCIEU/PhenoSpd R scripts to estimate multiple testing correction for hypothesis free MR

8. MR研究的优势和局限性

(1)克服了传统病因学因果推断的缺点

控制混杂因素 可研究长期效应 设计可与RCT相媲美

(2)需加强对基因功能和代谢通路的认识

不符合孟德尔遗传定律 多基因遗传病 基因型不外显 表型的环境修饰 遗传基因的异质性

9.总结

(1)MR研究可克服混杂和反向因果所带来的偏倚,工具变量在满足3个核心假设的前提下,可为推断暴露和结局的因果关系提供可靠证据 (2)MR的解读需谨慎:研究设计是否合理;工具变量是否合适;统计效能是否充足;生物学复杂性是否使结果的解读复杂化 (3)即使以上条件均满足,MR结果的解读仍要基于"综合证据",多项研究结果一致性越高,结论越可靠

10.MR写作指南

The guidelines are divided into nine sections: 1.motivation and scope 2.data sources 3.choice of genetic variants 4.variant harmonization 5.primary analysis 6-7. supplementary and sensitivity analyses (one section on robust statistical methods and one on other approaches) 8.data presentation 9.interpretation STROBE-MR (strengthening the reporting of observational studies in epidemiology using mendelian randomization), a check list of 20 reporting items, assists authors in reporting their MR research clearly and transparently. Adopting STROBE-MR should help readers, reviewers, and journal editors evaluate the quality of published MR studies.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-01-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信星球 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 应用孟德尔随机化方法推断暴露因素与健康结局的因果关系
  • 0.临床研究方法
  • 1. 孟德尔随机化方法的介绍
    • (1)基本思想
    • (2)应用模型
    • (3)孟德尔随机化与随机对照试验的对比
    • (4)孟德尔随机化的核心假设
    • (5)工具变量的选择
  • 2.常见的MR研究设计方法及特点
    • (1)单样本MR
    • (2)两样本MR
    • (3)双向MR
    • (4)两阶段MR
    • (5)多变量MR
    • (6)Factorial MR
  • 3.工具变量假设的常见偏倚及处理策略
  • 4. 工具变量的多效性
  • 5. 两样本MR常用的因果效应估计方法
  • 6. 工具变量的异质性和多效性检验方法
  • 7. MR数据库及生信工具
    • (1)MR-Base
    • (2)MR-PRESSO
    • (3)TwoSampleMR
    • (4)MendelianRandomization
    • (5)mrrobust
    • (6)summary-data-based Mendelian Randomization(SMR)
    • (7)PHESANT
    • (8)PhenoSpD
  • 8. MR研究的优势和局限性
    • (1)克服了传统病因学因果推断的缺点
    • (2)需加强对基因功能和代谢通路的认识
  • 9.总结
  • 10.MR写作指南
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档