Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >GWAS中的effect有什么用?计算PVE和PRS!

GWAS中的effect有什么用?计算PVE和PRS!

作者头像
邓飞
发布于 2023-09-06 02:55:42
发布于 2023-09-06 02:55:42
68100
代码可运行
举报
运行总次数:0
代码可运行

大家好,我是邓飞,虽然,我早就知道GWAS分析中的effect值,就是数量遗传学的基因中的替换效应,但是一直没有仔细阅读相关材料。今天通过阅读数量遗传学的教程,理解了这个概念,真好。并且通过R语言模拟数据,验证了这个结论,纸上得来终觉浅,绝知此事要躬行!

同时,根据公式推导,可以更贴切的知道BLUP育种值的含义,我们为何要根据育种值进行选择,选择后会发生什么,加性效应,显性效应对于单位点SNP如何计算,对于PRS,MAS,GS的理解都是非常重要的。

1. GWAS中的effect

这里,GWAS中的回归系数,effect,beta,都是一个意思。

因为GWAS分析中,单点检测,类似回归分析,effect就是SNP回归系数beta,p值就是SNP的P-value。

比如数据:

用R语言拟合模型:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
mod_M7 = lm(phe.V3 ~ M7_1,data=dd)
summary(mod_M7)

这里的M7位点,effect是1.394,p值是0.29。

下图用GWAS的GLM模型展示,两者结果是一致的。

2. 数量遗传学中的替换效应

2.1 加性效应和显性效应

首先,先看一下加性效应和显性效应的定义:

举个栗子比如:

  • A2A2的平均值是:20
  • A1A2的平均值是:17
  • A2A2的平均值是:10

那么:

  • 平均值是m = (10+20)/2 =15
  • 加性效应的值是a = (20-10)/2 =5
  • 显性效应的值是d = 17-15=2
2.2 期望和方差

假定一个位点的次等位基因频率是p,主等位基因频率是q,而且该位点满足哈温平衡,所以:

整体均值为:

整体方差:

2.3 等位基因平均效应

❝一种定义等位基因效应的方法,是利用后代群体的平均表现与随机交配群体均值的离差进行计算。以等位基因A1为例,把它视为配子,与群体中其他配子随机结合产生一个后代群体,其他配子基因型既有A1也有A2,它们的频率分别为p和q。因此,配子A1产生后代群体中的基因型有A1A1和A1A2两种,频率也分别为p和q。根据配子A1后代群体的基因型频率,就能得到后代群体的均值为pa+qd,从中减去随机交配群体的均值μ,就得到等位基因A1的效应 。类似地,我们还可以得到等位基因A2平均效应 。对于复等位基因,可用同样的方法定义它们的平均效应。 ❞

2.4 替换效应(substitution effect)

❝育种过程中,当选择有利于某个等位基因时,常意味着有利等位基因对另一个不利等位基因的替换。因此,有必要研究等位基因的替代效应(effect of an allele substitution)。假定我们可以把随机挑选的等位基因A2变为A1,中选个体的基因型可能是A1A2也可能是A2A2,频率分别为p和q。把A1A2变为A1A1后,基因型值从d变为a,替换前后的效应变化为a-d;把A2A2变为A1A2后,基因型值从-a变为d,替换前后的效应变化为a+d。因此得到平均基因替换效应的表达式。

「基因平均效应和替换效应的关系:」

❝上面资料来源王健康老师的PPT内容:第8章 随机交配群体的遗传分析 ❞

3. 用基因型数据计算

3.1 基因频率

首先,看一下基因频率:

  • p为:0.1693
  • q为:0.8307

也可以根据AA,AT,TT的个数,手动计算:

3.2 加性效应和显性效应

这里,用AA,AT,TT平均表型值计算:

「计算的结果:」

  • m:2.316
  • a:2.316
  • d:1.804
3.3 基因效应和替换效应

注意,如果要手动计算的替换效应和回归分析计算的回归系数,需要满足哈温平衡。这里位点不符合哈温平衡,所以手动计算的替换效应和回归分析的beta值有差别。

4. 替换效应和回归系数等价推导

下面介绍一下相关的推导。

把SNP的分型转为0-1-2的X变量,将表型数据为Y变量,那么回归系数的公式可以推导为替换效应的组成。

上图中,X是编码为0-1-2的SNP,Y是每个基因型0-1-2的表型值。比如:

如果我们对value为Y,SNP为x,计算回归系数:b = cov(X,Y)/var(X),就可以推导为:b = alpha,截距为:u - 2palpha

结论:回归系数就是替换效应。

5 模拟数据演示

计算公式:

5.1 小数据演示

我们模拟一个符合哈温平衡的位点,p=0.5,q=0.5,n=12个:

计算不同分型的平均数:

  • A2A2 = 10.7
  • A1A2 = 18.2
  • A1A1 = 31

那么加性效应和显性效应为:

  • m = (31+10.7)/2 = 20.85
  • a = 31-20.85 = 10.15
  • d = 18.2 -m = -2.65

替换效应为:a + (p - q)

可以看出,计算出的回归系数为:10.16,截距为9.33,结果基本一致。

5.2 大数据演示
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 假定p为0.8,q为0.2,a=10,m =30,d=5,
# 那么分型为0的为20,分型为1的为35,分型为2的为40
# 那么分型为0的频率为0.64,分型为1的频率为0.32,分型为2的频率为0.04
# 总模拟个数为1000,标准差为5
rm(list=ls())
set.seed(123)
AA = data.frame(SNP = rep(0,640),y = rnorm(640,20,5))
AT = data.frame(SNP = rep(1,320),y = rnorm(320,35,5))
TT = data.frame(SNP = rep(2,40),y = rnorm(40,40,5))

dd = rbind(AA,AT,TT)
head(dd)
str(dd)
table(dd$SNP)

mod = lm(y ~ SNP,data=dd)
summary(mod)


## 手动计算
mu = mean(dd$y);mu
a=10;d=5;p=0.8;q=0.2 
beta = a + (p-q)*d;beta
beta_0 = mu - 2*q*beta;beta_0

回归计算的回归系数和截距为:

  • 截距:20.6
  • 回归系数:12.9989

手动计算基因的替换效应:

  • 截距为:20.61
  • 回归系数为:13

两者结果完全一致。

5. 替换效应和育种值

一个个体的育种值,就是他的后代群体,相对于整个亲本群体的差异。比如一个个体的育种值是0.5,那就是说他的后代会比群体的整体平均值高0.3,如果育种值是0,那就是后代的平均值和群体一致。所以,我们要选择blup值大的个体,因为它的后代会高于群体的平均值。

因此,基因型A1A1、A1A2和A2A2的育种值分别为A11=2α1, A12=α1 +α2和A22=2α2 。统一起来,各种基因型的育种值表示为:

  • A11 = 2*alpha1
  • A12 = alpha1 + alpha2
  • A22 = alpha2 注意,这里的alpha1是等位基因1的平均效应,alpha2是等位基因2的平均效应。

所以,这里,就可以理解为数量遗传学的替换效应就和GWAS分析的效应值联系到了一起。

根据上面的公式,我们就可以根据每个位点的效应值,计算单个SNP的育种值,加性效应和显性效应

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-07-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 育种数据分析之放飞自我 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
GWAS中的effect与数量遗传学中的替换效应
大家好,我是邓飞,虽然,我早就知道GWAS分析中的effect值,就是数量遗传学的基因中的替换效应,但是一直没有仔细阅读相关材料。今天通过阅读数量遗传学的教程,理解了这个概念,真好。并且通过R语言模拟数据,验证了这个结论,纸上得来终觉浅,绝知此事要躬行!
邓飞
2022/12/13
1.1K0
GWAS中的effect与数量遗传学中的替换效应
动物育种统计发展的百年--翻译版
Daniel Gianola1–5 and Guilherme J.M. Rosa1,2
邓飞
2023/09/06
3770
动物育种统计发展的百年--翻译版
笔记 GWAS 操作流程6-2:手动计算GWAS分析中的GLM和Logistic模型
表型数据如果只有一个,可以放在plink文件的ped数据的第六列,也可以单独拉出来:
邓飞
2020/09/30
2.9K0
笔记 GWAS 操作流程6-2:手动计算GWAS分析中的GLM和Logistic模型
GWAS综述(生信文献阅读俱乐部精选)
从具有遗传标记的复杂性状的统计学关联推进到理解影响性状的功能性遗传变异往往是一个复杂的过程。精细定位可以选择遗传变异并对其进行优先级排序以供进一步研究,但是大量的分析策略和研究设计使得选择最佳方法具有挑战性。作者回顾了不同精细绘图方法的优缺点,强调了影响性能的主要因素。主题包括全基因组关联研究(GWAS)的解释结果,连锁不平衡的作用,统计精细绘图方法,跨种族研究,基因组注释和数据整合以及其他分析和设计问题。
生信技能树
2018/11/30
5.2K0
GWAS综述(生信文献阅读俱乐部精选)
统计遗传学:第九章,GWAS+群体分析+亲缘关系分析
本篇,使用数据和代码演示的形式,展示了GWAS分析、群体结构分析、亲缘关系分析三部分内容。我又重演了一遍,修正了一些bug。文中代码和数据我回头专门整理相关博文进行分享。
邓飞
2022/12/12
4K0
统计遗传学:第九章,GWAS+群体分析+亲缘关系分析
统计遗传学:第四章,GWAS分析
大家好,我是邓飞,今天继续介绍《统计遗传学》这本书,本次介绍第四章:GWAS分析,主要是综述介绍,具体的实操介绍要到八九十章节。
邓飞
2022/07/27
2K0
统计遗传学:第四章,GWAS分析
通过基因组选择预测杂交水稻的表现(数据挖掘)
基因组选择,预测杂种优势,在水稻可以用,在玉米,高粱中也可以用,在动物选择配套系时也可以用,根据加性效应和非加性效应进行预测,前景广阔。
邓飞
2019/06/13
9960
笔记 | GWAS 操作流程2-4:哈温平衡检验
「什么是哈温平衡?」 ❝哈迪-温伯格(Hardy-Weinberg)法则 哈迪-温伯格(Hardy-Weinberg)法则是群体遗传中最重要的原理,它解释了繁殖如何影响群体的基因和基因型频率。这个法则是用Hardy,G.H (英国数学家) 和Weinberg,W.(德国医生)两位学者的姓来命名的,他们于同一年(1908年)各自发现了这一法则。他们提出在一个不发生突变、迁移和选择的无限大的随机交配的群体中,基因频率和基因型频率将逐代保持不变。---百度百科 ❞ 「怎么做哈温平衡检验?」 ❝「卡方适合性检验!」
邓飞
2020/04/27
4.8K0
GWAS杂谈 | FarmCPU结果里的effect到底代表什么?
全基因组关联分析(Genome wide association study,GWAS)是一种挖掘调控某一性状基因最常用的方法。GWAS常用的模型为混合线性模型(MLM),该模型在一般线性模型中加入了群体结构和亲缘关系,可以很好的控制GWAS结果的假阳性。但这两个变量与标记之间的混杂降低了模型对关联位点的检测效力,造成了一定程度的假阴性。为了解决这个问题,华中农业大学的刘小磊博士开发了一个新的模型 "FarmCPU"(Fixed and random model Circulating Probability Unification),大家可以通过R包“GAPIT” 和“FarmCPU"使用(http://www.zzlab.net/software/index.html)。
生信小王子
2020/08/10
5.8K0
GWAS杂谈 | FarmCPU结果里的effect到底代表什么?
多基因风险评分2
众所周知,人体的染色体是由A、T、C、G四种碱基组成的DNA双螺旋结构,其中A碱基与T碱基相对,C碱基与G碱基相对。换言之,如果一条DNA单链某位置上的碱基是A,那么与之配对的另一条单链DNA在相同位置上的碱基就是T。由于人类是一个二倍体生物,这也就意味着人的染色体基因型是由两种碱基组成,如果一个人在染色体某一位置上的基因型(SNP)是AA,并且AA就是野生型,突变的情况是A突变成G,那么基因型AG就是杂合型,GG就是纯合突变型,为了方便计算,我们规定基因型为AA的人的等位基因剂量为0,AG的等位基因剂量为1,GG的等位基因剂量为2,我们也称该SNP的等位基因剂量分别是0、1、2,其他相关知识点可参考往期遗传学概述。
生信与临床
2020/08/27
1.8K0
多基因风险评分2
统计遗传学:第一章,基因组基础概念
前几天推荐了这本书,可以领取pdf和配套数据代码。这里,我将各个章节介绍一下,总结也是学习的过程。
邓飞
2022/07/27
7730
统计遗传学:第一章,基因组基础概念
GWAS和GS的结合:SSGWAS的应用
满血复活。注意:这个blupf90的新功能,貌似有点问题,好几个人测试显示SSGWAS结果P-value不显示。还未坐实,待我测试后公布。
邓飞
2019/09/04
1.7K0
GWAS和GS的结合:SSGWAS的应用
GWAS分析后如何确定哪个基因型与表型正相关?
我一直不知道,这也是一个问题,直到一位老师问了这个问题,我才发觉,这才是最重要的问题:
邓飞
2023/09/06
9330
GWAS分析后如何确定哪个基因型与表型正相关?
统计遗传学:第三章,群体遗传
前几天推荐了这本书,可以领取pdf和配套数据代码。这里,我将各个章节介绍一下,总结也是学习的过程。
邓飞
2022/07/27
9500
统计遗传学:第三章,群体遗传
GWAS分析中SNP解释百分比PVE | 第四篇,MLM模型中如何手动计算PVE?
GWAS分析中SNP解释百分比PVE | 第四篇,MLM模型中如何手动计算PVE? #2021.12.25
邓飞
2021/12/27
2.8K0
GWAS分析中SNP解释百分比PVE | 第四篇,MLM模型中如何手动计算PVE?
多基因风险评分(PRS)分析教程
多基因风险评分(Polygenic Risk Score)分析过程概览。PRS 分析需要两个输入数据集:i)base data(GWAS):全基因组范围内遗传变异的基因型-表型关联的摘要统计信息(例如 beta,P值) ;ii)target data:目标样本中个体的基因型和表型。基于 base data 得到的 SNP 效应值计算 target data 中样本的 PRS。
生信菜鸟团
2020/08/04
16.5K0
多基因风险评分(PRS)分析教程
plink分析二分类Logistic的GWAS模型,表型值编码以及OR值意义
大家好,我是邓飞。之前编写的GWAS Cookbook很受欢迎(快来领取 | 飞哥的GWAS分析教程V6版),但是也有一些知识点很容易让人疑惑,这里挑选出来介绍一下。
邓飞
2024/11/26
6510
plink分析二分类Logistic的GWAS模型,表型值编码以及OR值意义
统计遗传学:第八章,基因型数据质控
大家好,我是飞哥,本章节是理论+实操,干货满满,这里我将书中的数据用代码进行了实现,你可以下载相关的数据,用我整理好的代码进行操作,666!
邓飞
2022/12/12
1.8K0
统计遗传学:第八章,基因型数据质控
体验impute.me基因检测分析结果
本来以为这是一个小应用,试用完后给我的感受是这是一个基因组的应用商店,它涵盖了无数的研究结果,一个大大的赞!
用户1075469
2020/03/03
8303
Nature genetics | 韩斌院士团队深入解析水稻杂种优势遗传基础,总结杂交稻选育遗传规律,助力杂交稻育种高质量发展
2023年9月7日,中国科学院分子植物科学卓越创新中心韩斌团队在Nature Genetics在线发表了题为Structure and function of rice hybrid genomes 、
生信宝典
2023/09/12
3630
Nature genetics | 韩斌院士团队深入解析水稻杂种优势遗传基础,总结杂交稻选育遗传规律,助力杂交稻育种高质量发展
推荐阅读
相关推荐
GWAS中的effect与数量遗传学中的替换效应
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验