Loading [MathJax]/jax/input/TeX/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >浅谈全基因组关联研究 (Genome-wide association study,GWAS)

浅谈全基因组关联研究 (Genome-wide association study,GWAS)

作者头像
生信与临床
发布于 2022-08-21 09:08:51
发布于 2022-08-21 09:08:51
1.8K0
举报

迄今为止,全基因组关联研究(以下简称GWAS)发展已有二十多年了。这二十多年间,随着样本数的越来越大以及基因芯片的物美价廉,GWAS也得到了更多的发展,科学家们发现了大量和人类疾病以及其它表型相关联的基因,在此基础上,GWAS还推动了孟德尔随机化和多基因风险评分的发展与应用。可以说,GWAS是现代遗传学的重要组成部分,也有人戏称Nature GeneticsNature GWAS

第一部分:Sequencing

Sequencing就是指测序,一般GWAS使用的都是基因芯片(chip is cheap),芯片上排列着大量已经设计好的SNP 位点(SNP array),一般可以有上百万个。注意了,由于同一SNP在不同人种中的频率可能相差很大,所以针对特定人种进行全基因组测序一般使用特制的芯片。比如,英国生物银行(UK Biobank)主要使用UK Biobank Axiom array这款自制芯片测了约45万人,而针对亚洲人一般使用Illumina Asian Screening Array 这款芯片(Illumina是基因芯片公司)。因此,如果想自己测序,一定要选好合适的芯片。测完序并经过配套软件处理后我们通常会得到原始的测序数据。

第二部分:SNP calling

拿到原始测序后(多为FASTQ格式),我们就需要对庞大的数据进行处理,这里最关键的就是质控,如果质控不过关,那么得出的结果也是不可靠的。这一步我们通常按照GATK的推荐流程进行即可,不是很复杂,但是新手会碰到很多bug,大家做好心理准备。做完SNP calling后我们可以得到vcf(Variant Call Format)格式文件。

第三部分:Association analysis

对于vcf文件,我们可以使用vcftools这个软件将其转化为PLINK格式的二进制文件,数据特别大的时候可以存储为BGEN格式(UK Biobank使用的就是BGEN格式)。这里我们默认大家拥有PLINK格式或者BEGN格式的数据了,在进行关联分析之前,我们可以使用qctools这个软件来对数据进行质控(PLINK个GCTA软件也可进行质控)。在完成质控后,我们就可以使用PLINK或者GCTA软件进行关联分析了,最后我们会得到单个SNP与表型的关联结果,也就是进行MR分析时需要的summary statistics。

如果SNP array得到的位点数太少,这时候我们是需要进行基因填充的(imputation),一般使用IMPUTE2这个软件,它可以依据参考基因组的信息推断出那些不在芯片上的位点在人群中的分布情况,这样原来只有100万个SNP位点的芯片数据经过填充后可能有超过1000万个位点信息。

关于GWAS的简介就先讲到这里,后续会和大家详细介绍GWAS的内容。另外,这篇内容是我依据经验写出来,以期能让大家对GWAS有个初步了解,不足之处还望大家指正。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-02-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信与临床 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
GWAS全基因组关联分析流程(BWA+samtools+gatk+Plink+Admixture+Tassel)
我梳理了GWAS全基因组关联分析的整个流程,并提供了基本的命令,用到的软件包括BWA、samtools、gatk、Plink、Admixture、Tassel等,在此分享出来给大家提供参考。
追梦生信人
2020/10/19
12.7K2
GWAS全基因组关联分析流程(BWA+samtools+gatk+Plink+Admixture+Tassel)
Indel和SV以及CNV数据如何做GWAS分析?
大家好,我是邓飞,今天介绍一下如何使用Indel和SV数据,进行GWAS分析,参考章节:领取 | GWAS和统计遗传书籍汇总中GWAS书籍:《Genome-Wide Association Studies》,电子版pdf的第十章:
邓飞
2025/07/08
1610
Indel和SV以及CNV数据如何做GWAS分析?
2.5万汉族人的GWAS乳腺癌风险基因
今天是大年初七,给大家带来的是2.5万汉族人的GWAS乳腺癌风险基因,希望你能学到知识。
生信技能树
2019/03/07
1.6K0
2.5万汉族人的GWAS乳腺癌风险基因
GWAS | 使用GEMMA进行全基因组关联分析
GEMMA (Genome-wide Efficient Mixed Model Association) 是基于混合模型进行全基因组关联分析的工具。运行速度非常快,结果准确,使用也十分方便,非常适合初学者做GWAS分析。
生信小王子
2020/08/10
10K0
文献笔记五十四:全基因组关联分析鉴定拟南芥中控制种子大小的调节因子
A new regulator of seed size control in Arabidopsis identified by a genome-wide association study New Phytologist 2019 Peking University
用户7010445
2020/03/03
2.1K0
统计遗传学:第七章,基因型数据格式介绍
BEAGLE 5.0: https://faculty.washington.edu/browning/beagle/beagle.html.
邓飞
2022/12/12
1.7K0
统计遗传学:第七章,基因型数据格式介绍
全基因组关联分析(GWAS)学习笔记——3.2
这一步突然多出来一个inversion.txt文件,怎么来的还不太清楚 使用到的命令是
用户7010445
2020/03/03
1.5K0
Nat. Comput. Sci. | 可扩展!更快!更便宜!大规模基因组数据存储新结构
今天为大家介绍的是来自康奈尔大学计算生物学系Xinzhu Wei团队的一篇论文。对大量基因组进行计算分析需要一种数据结构,既能紧凑地表示数据集,又能支持对变异和样本进行高效操作。然而,现有的表格数据结构和文件格式对遗传数据的编码已经变得既昂贵又不可持续。本文介绍了一种基因型表示图(GRG),这是一种完全连接的层次化数据结构,能够无损地编码分阶段的全基因组多态性。通过利用样本间变异共享,GRG能够将20万个英国生物样本库的分阶段人类基因组压缩到每条染色体5到26GB,同时还支持图遍历算法在随机存取内存中重用已计算的值。构建和处理GRG文件的规模可扩展至一百万个全基因组。以等位基因频率和关联效应为例,作者展示了通过图遍历在GRG上进行计算的速度是所有测试方法中最快的。基于GRG的算法有潜力提高大规模基因组数据集分析的可扩展性并降低成本。
DrugAI
2025/01/08
1310
Nat. Comput. Sci. | 可扩展!更快!更便宜!大规模基因组数据存储新结构
使用plink软件利用Fisher精确检验关联基因型和表型(GWAS)
最近看论文 Genetic subdivision and candidate genes under selection in North American grey wolves,论文里用33个狼的皮毛颜色作为表型去和基因型进行关联分析
用户7010445
2024/07/02
3581
使用plink软件利用Fisher精确检验关联基因型和表型(GWAS)
R语言rMVP包做GWAS(全基因组关联分析)分析实例
本篇推文的示例数据来源于参考书 《Genome-Wide Association Studies》的第十章 A Practical Guide to Using Structural Variants for Genome-Wide Association Studies。
用户7010445
2024/05/18
2.2K1
R语言rMVP包做GWAS(全基因组关联分析)分析实例
基因型填充(Genotype-Imputation):从原理到操作
基因型缺失:样本中没有被测序数据覆盖到的区域,基因型就属于未知的,我们将之称为缺失位点
用户9434941
2022/02/05
2.9K0
全基因组关联分析(GWAS)学习笔记——3.1
参考 Create VCF from .bim, .bed and .fam files
用户7010445
2020/03/03
2K0
snpQT-又一个人基因组SNP填充和GWAS流程
发现搜索引擎是个神奇的东西,偶然想起的关键词一搜索,获得的就是意想不到的结果,我以imputation+qc搜索,就找到了snpQT(发音Snip Cute)这样一个神奇的工具/流程。这个流程的目的是让你的SNP cute,为处理人类基因变异提供了帮助:
用户1075469
2021/11/02
6900
全基因组 - 人类基因组变异分析(PacBio) (4)-- DeepVariant
单核苷酸多态性(Single Nucleotide Polymorphism,SNP)指的是基因组中单个核苷酸腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)或鸟嘌呤(G)在物种成员之间或个体配对染色体之间的差异, 是最常见也最简单的一类造成基因组多样性的DNA序列变异。
三代测序说
2023/11/12
1.9K2
全基因组 - 人类基因组变异分析(PacBio) (4)-- DeepVariant
使用IMPUTE2进行基因型填充
需要两个基本元素,第一个是检测样本的分型结果,即图中所示的study genotypes, 第二个元素称之为reference panel, 对应图中的reference haplotypes, 利用高密度的reference panel对检验样本为覆盖到的SNP位点,或者缺失的分型结果进行填充,对应图中问号表示的位点。
生信修炼手册
2019/12/19
3K0
使用IMPUTE2进行基因型填充
GWAS流程知多少-Hail
Hail是一个用于可扩展数据探索和分析的开源库,特别是基因组学,‎为各种规模的基因组分析提供强劲支持,云原生的基因组数据框架和批处理计算‎。Hail需要Python 3和Java 8 JRE[1], GNU/Linux 还需要 C 和 C++标准库(如果尚未安装)。有关库的高级用法,请参阅概述[2],有关全基因组关联研究的简单示例,请参阅GWAS 教程[3],以及安装页面[4]以开始使用 Hail。
用户1075469
2021/12/18
8990
GWAS流程知多少-Hail
plink软件cookbook
快,真的是快,我用perl或者Python编写的代码运行需要50s,plink不到1s完成,在C语言面前,我掌握的语言是苍白的。所以,好好利用plink软件,对于速度的提升非常显著。
邓飞
2021/03/30
2.3K0
plink软件cookbook
使用shapeit进行单倍型分析
shapeit是一款单倍型分析工具,运算速度快,准确率高,是impute2官方推荐的pre-phasing工具,官网如下
生信修炼手册
2019/12/19
4.4K0
使用shapeit进行单倍型分析
跟着Nature Genetics学GWAS分析:emmax软件gwas分析/qqman包展示结果
https://www.nature.com/articles/s41588-023-01340-y
用户7010445
2023/08/23
7920
跟着Nature Genetics学GWAS分析:emmax软件gwas分析/qqman包展示结果
Biobanks生物银行知多少
随着一批国家的生物银行的完成和结果公布,多个 Biobank 的 GWAS summary statistics 文件已经公开,这里列下不同国家的相关资源,这些资源基本是使用开源的pheweb工具进行数据公开的,多数开放数据下载。
用户1075469
2022/11/08
1.6K0
Biobanks生物银行知多少
推荐阅读
相关推荐
GWAS全基因组关联分析流程(BWA+samtools+gatk+Plink+Admixture+Tassel)
更多 >
交个朋友
加入HAI高性能应用服务器交流群
探索HAI应用新境界 共享实践心得
加入架构与运维学习入门群
系统架构设计入门 运维体系构建指南
加入架构与运维工作实战群
高并发系统设计 运维自动化实践
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档