Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >R包”gwasrapidd”------快速获取GWAS Catalog数据库的信息

R包”gwasrapidd”------快速获取GWAS Catalog数据库的信息

作者头像
生信与临床
发布于 2022-08-21 09:38:45
发布于 2022-08-21 09:38:45
11.6K02
代码可运行
举报
运行总次数:2
代码可运行

在往期内容中,米老鼠和大家简单介绍过做孟德尔随机化研究使用到的数据库,主要是OpenGWAS, GWAS Catalog 和Phenoscanner这三个。其中,Open GWAS库的数据可以使用“ieugwasr”包来快速获取,具体请参考往期内容。今天我和大家简单介绍一下可以快速获取GWAS Catalog数据库信息的“gwasrapidd”包,该包于近期加入CRAN集。

从获取数据的角度来看,主要使用的有四个函数:get_studies(), get_associations(), get_variants(),和 get_traits()

1. 使用get_studies()函数

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
install.packages("gwasrapidd") #安装Rlibrary(gwasrapidd) #
my_study1 <- get_studies(study_id ='GCST000858') #
slotNames(my_study1) #
#[1] "studies"                 "genotyping_techs"        "platforms"               "ancestries"             
#[5] "ancestral_groups"         "countries_of_origin"      "countries_of_recruitment""publications"
my_study1@studies #查看slot studies的具体信息

返回的结果是一个S4对象,我们可以使用slotNames()函数来获取每个slot的名字,这里我们发现my_studies主要包括8个slot,其中"studies"代表研究的基本信息,"genotyping_techs"代表采取的基因分型技术,"platforms"代表使用的测序平台,"ancestries"和"ancestral_groups"代表人群所属的种族以及不同人种的样本量,"countries_of_origin"和"countries_of_recruitment"代表国别相关信息,"publications"代表发表的文章信息。

这里的get_studies()的主要参数如下:(1)参数study_id:代表GWASCatalog里研究的accession号,前四个字母是“GCST”,可以是向量类型;(2)参数association_id:代表GWAS catalog里的关联信息ID,是一个数字,可以是向量类型;(3)参数variant_id:代表GWASCatalog里的遗传变异信息,一般均为rsid,可以是向量类型;(4)参数efo_id:代表GWAS Catalog里性状的ID号,以“EFO”开头,可以是向量类型;(5)参数pubmed_id:代表研究的PubMedID号;(6)参数full_pvalue_set: 是一个逻辑参数,代表获取是否有完整summary结果的研究(full summary statistics),如果设置为TRUE则代表只 or studies without it (FALSE);(7)参数efo_trait:是字符串型向量,代表EFO表型描述信息,如“uric acid measurement”。

我们需要注意如果是多参数输入的话,“gwasrapidd”包返回的是多个参数的并集,比如,如果同时输入参数study_id和variant_id,那么返回的结果就是要么包含study_id的,要么包含variant_id的:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
my_study2 <- get_studies(study_id ='GCST000858', variant_id = 'rs12752552')
my_study2@studies 

可以看出在这种情况下,返回的结果是或者包含“GCST000858”,或者包含“rs12752552”的研究信息,其等同于如下代码:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
s1 <- get_studies(study_id ='GCST000858')
s2 <- get_studies(variant_id ='rs12752552')
my_study2 <- gwasrapidd::union(s1, s2) #这里的union函数来自gwasrapidd包

2. 使用get_associations()函数

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
my_associations <-get_associations(study_id = my_study1@studies$study_id)
slotNames(my_associations)
#[1] "associations""loci"        "risk_alleles" "genes"        "ensembl_ids"  "entrez_ids" 
as.data.frame(my_associations@associations)

这里get_associations()函数的参数和get_studies()的差不多,单数参数interactive在get_associations()中是比较特殊的,它是一个逻辑型参数,表示是否反应SNP之间的交互作用,默认值为TRUE。最后,该函数会返回6个slot,分别反映关联值大小,位点信息,风险等位基因信息,基因信息,基因的ENSEMBL编码和基因的ENTREZ编码信息,感兴趣的小伙伴可以都是试着查看一下。

3. 使用get_variants()函数

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
my_variants <- get_variants(study_id =my_study1@studies$study_id)
slotNames(my_variants)
#[1] "variants"         "genomic_contexts""ensembl_ids"     "entrez_ids"     
as.data.frame(my_variants@variants)
# variant_id merged functional_class chromosome_name chromosome_positionchromosome_region    last_update_date
#1 rs7329174      0   intron_variant              13            40983974          13q14.11 2021-10-19 22:22:55
as.data.frame(my_variants@genomic_contexts)

关于get_variants()函数有一个需要注意的参数genomic_range,该参数表示的是指定遗传变异在基因组上的特定位置,它是一个列表型数据,由三组向量构成,分别是染色体号,七点和终点。该函数返回的结果包含4个slot,分别表示遗传变异的信息(不包含GWAS的汇总数据),遗传变异在基因组上的信息,基因的ENSEMBL编码和基因的ENTREZ编码信息。从上图中我们可以看出一个位于内含子区域上的SNP可以对应多个基因,区别就是和不同基因的距离不同,一般我们会选择距离最近的那个基因。

4. 使用get_traits()函数

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
my_traits <- get_traits(study_id =my_study1@studies$study_id)
slotNames(my_traits)
as.data.frame(my_traits@traits)
#      efo_id                       trait                                 uri
#1 EFO_0002690 systemic lupus erythematosus http://www.ebi.ac.uk/efo/EFO_0002690

函数get_traits()的参数set_operation值得我们关注,它表示对返回的trait的操作,有两个选项,分别是“union”和“intersection”,前者表示取所有的返回的trait,后者表示取交集,默认值是“union”。

虽然“gwasrapidd”包在Github上已存在好几年了,但知道最近才加入到CRAN里,目前来看,该包还是比较稳定和可靠的,有需要的小伙伴赶快学起来吧!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-01-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信与临床 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Nature | 西湖大学,gsMap:空间+转录组+基因组+性状联合分析,可将空间基因表达与复杂性状相关联
◉ gsMap 首先使用图神经网络 (GNN) 学习嵌入表示,这些嵌入整合了基因表达水平、空间坐标,并可选地整合细胞类型注释先验信息。◉ 随后,gsMap 根据嵌入中的余弦相似性为每个位点识别同质位点,以形成一个微区域。◉ 每个位点依次被视为焦点位点,并通过将基因在微区域内的平均排名除以其在整个空间转录组 (ST) 切片中的平均排名,计算每个基因在每个焦点位点的特异性得分。◉ D,位点的微区域;F,基因表达特异性;G,位点空间图;R,排名;X,基因表达矩阵;Z,嵌入表示。◉ 然后,基于每个位点的 GSS(基因空间特异性得分)与其到转录起始位点 (TSS) 的距离以及 SNP 到基因的链接图,将这些 GSS 映射到单核苷酸多态性 (SNP),从而为每个位点生成一组独特的 SNP 注释。◉ 对于每个位点的 SNP GSS 注释,gsMap 使用分层连锁不平衡回归 (S-LDSC) 来评估具有更高 GSS 的 SNP 是否对目标性状的遗传力有显著富集。◉ LD,连锁不平衡。◉ 为了量化某个空间区域与性状关联的显著性,gsMap 使用柯西组合检验来聚合该空间区域内位点的 P 值。
生信菜鸟团
2025/05/23
3070
Nature | 西湖大学,gsMap:空间+转录组+基因组+性状联合分析,可将空间基因表达与复杂性状相关联
GWAS公开结果哪里找,GWAS Catalog来帮忙
GWAS Catalog是EBI旗下的一个数据库,收录了公开发表的GWAS分析结果,截止2019-11-21,收录了16万个SNP位点和疾病之间的关联信息,更多信息汇总如下
生信修炼手册
2019/12/19
4.1K1
GWAS公开结果哪里找,GWAS Catalog来帮忙
CAUSALdb:涵盖数千个GWAS研究和Fine-mapping结果的可视化数据库
现在 GWAS 研究越来越多。要查询以往的 GWAS 研究结果,可以使用 GWAS Catalog。GWAS Catalog 包含的信息非常多,不过有时可能满足不了需要。这里,推荐一个叫 CAUSALdb 的数据库。
实验盒
2021/09/22
1.3K0
CAUSALdb:涵盖数千个GWAS研究和Fine-mapping结果的可视化数据库
R包“ieugwasr“教程---SNP信息查询
在孟德尔随机化研究中,我们常常会碰到SNP没有rsid的情况,这个时候需要我们把rsid添加上,如果SNP的个数不是很多的话,我们可以使用variants_chrpos()函数:
生信与临床
2022/08/21
5.7K0
R包“ieugwasr“教程---SNP信息查询
COSMIC数据库详细梳理
Drug development proceeds via a series of widely-recognised phases.Actionability uses an extended version of the FDA’s phase definitions. Possible values are: Approved FDA, Approved other, Phase 3, Phase 2, Phase 1, Experimental, Orphan/Fast track, Case study, Out of trials human study, Retrospective/Meta-analysis, Phase 4, Unknown.
追风少年i
2024/06/07
3040
COSMIC数据库详细梳理
如何获取完整的GWAS summary数据(1)------GWAS catalog数据库
在孟德尔随机化(Mendelian randomization,MR)研究中,对于暴露数据我们只需要那些显著的SNP信息,这样的信息在各种GWAS数据库中都是很容易获取的。但是,关于结局的数据,由于需要SNP和结局不相关,所以很多时候这种不显著的结果无法直接从文章或者数据库中查询到,这时候我们需要下载完整的GWAS summary数据了,这种数据一般包含上百万乃至上千万的SNP信息,所以数据量比较大(压缩后在200M左右),希望大家有所认识,有所准备。
生信与临床
2022/08/21
9K0
如何获取完整的GWAS summary数据(1)------GWAS catalog数据库
mqtldb-meQTL预测数据库
之前我们在[[SNP是什么东西?#QTL]]当中提到过,QTL是一种用来预测SNP功能的算法。一般分析SNP影响哪个方面的功能就在前面加什么前缀。[[表观遗传学简介]]当中的DNA甲基化 (DNA methylation) 是一种通过给DNA序列添加甲基来影响基因功能的方式。如果要分析SNP对甲基化的影响,那么就会有meQTL (methylation QTL) 这样的东西。所以这里就给大家介绍两个关于meQTL预测的数据库。Pancan-meQTL: http://gong_lab.hzau.edu.cn/Pancan-meQTL/
医学数据库百科
2022/09/02
8070
mqtldb-meQTL预测数据库
数据库介绍 | PharmGWAS:一个基于GWAS的药物再利用知识库
生信菜鸟团
2024/11/23
2390
数据库介绍 | PharmGWAS:一个基于GWAS的药物再利用知识库
R包“ieugwasr“教程---功能介绍与分析
在进行孟德尔随机化(Mendelian randomization, MR)研究时,我们最常使用的一个R包就是“TwoSampleMR”,这个包是由“MRCIEU”团队开发的。除此之外,该团队还开发了“PHESANT”这个使用非常广泛的R包以及“open GWAS”这个数据库。
生信与临床
2022/08/21
3.7K0
R包“ieugwasr“教程---功能介绍与分析
玩转 ENSEMBL 数据库 (一)
生物信息学离不开数据库的使用,一般情况下,我们似乎能难使用一个数据库的全部功能,但不可否认的是,一个数据库往往隐藏着我们不知道的使用技巧,也可能我们使用过这些功能,但不够完整。所以这里我们一起探索一下数据库的使用奥秘及深度解读信息。
生信菜鸟团
2025/04/22
3320
玩转 ENSEMBL 数据库 (一)
lncRNAs和circRNAs数据更新及分析工具:Lnc2cancer 3.0
Lnc2Cancer 3.0由哈尔滨医科大学李霞老师和宁尚伟老师课题组开发,发表在2020年10月13日发表在Nucleic Acids Research杂志上。
作图丫
2022/03/29
8630
lncRNAs和circRNAs数据更新及分析工具:Lnc2cancer 3.0
孟德尔分析:代谢疾病相关的GWAS数据库
继上周分享了血液中的蛋白组学相关网站后➡【孟德尔随机化】血液循环中的蛋白质组:常用网站一网打尽,今天我们继续扩充孟德尔随机化GWAS数据的来源吧~
生信菜鸟团
2023/09/09
2.8K0
孟德尔分析:代谢疾病相关的GWAS数据库
Hail-GWAS教程笔记
主要参考自:Hail | GWAS Tutorial[1]本笔记旨在提供Hail功能的概述,重点是操作和查询遗传数据集的功能。我们进行了全基因组SNP关联测试,并证明了需要控制由群体分层引起的混杂。
用户1075469
2022/03/04
1.2K0
Hail-GWAS教程笔记
NatMed | 有源代码 | 多基因风险评分识别出不同类型的脂肪肝疾病
Fig. 4: mRNA expression of loci from the liver-specific (discordant) polygenic risk score is more abundant in the liver compared to the visceral adipose tissue.
生信菜鸟团
2025/01/10
1640
NatMed | 有源代码 | 多基因风险评分识别出不同类型的脂肪肝疾病
DNA语言基础模型,从DNA序列中准确预测分子表型 | Nat.Methods
- 图片说明- a,b,NT训练概述(a)及其通过微调在下游基因组预测任务中的应用(b)。通过探测进行的下游任务预测类似,但没有NT中的重新缩放权重。c,NT模型与其他基础基因组学模型在感知场大小、参数数量和我们基准中包含的18个精选下游任务性能方面的比较。d,为下游任务考虑的基因组特征的图形表示(改编自其他地方48)。- ,
生信菜鸟团
2025/02/20
2130
DNA语言基础模型,从DNA序列中准确预测分子表型 | Nat.Methods
这些功能很哇塞的植物科学数据库,你用过几个?
科学数据库不仅可以全面展示相关科研成果,同时还可以作为重要的数据及分析资源,最大化科研成果的转化率,提升同领域科研工作者的科研效率。12月盘点季,小编就给大家推荐几个超级实用的植物科学数据库...
尐尐呅
2022/04/01
8910
这些功能很哇塞的植物科学数据库,你用过几个?
GWAS综述(生信文献阅读俱乐部精选)
从具有遗传标记的复杂性状的统计学关联推进到理解影响性状的功能性遗传变异往往是一个复杂的过程。精细定位可以选择遗传变异并对其进行优先级排序以供进一步研究,但是大量的分析策略和研究设计使得选择最佳方法具有挑战性。作者回顾了不同精细绘图方法的优缺点,强调了影响性能的主要因素。主题包括全基因组关联研究(GWAS)的解释结果,连锁不平衡的作用,统计精细绘图方法,跨种族研究,基因组注释和数据整合以及其他分析和设计问题。
生信技能树
2018/11/30
5.2K0
GWAS综述(生信文献阅读俱乐部精选)
Hail-GWAS教程笔记
主要参考自:Hail | GWAS Tutorial[1]本笔记旨在提供Hail功能的概述,重点是操作和查询遗传数据集的功能。我们进行了全基因组SNP关联测试,并证明了需要控制由群体分层引起的混杂。
生信技能树
2023/02/27
6940
Hail-GWAS教程笔记
生信程序 | Nat.Genet | 在疾病关联位点精细定位因果组织和基因
生信菜鸟团
2025/02/06
1890
生信程序 | Nat.Genet | 在疾病关联位点精细定位因果组织和基因
统计遗传学:第九章,GWAS+群体分析+亲缘关系分析
本篇,使用数据和代码演示的形式,展示了GWAS分析、群体结构分析、亲缘关系分析三部分内容。我又重演了一遍,修正了一些bug。文中代码和数据我回头专门整理相关博文进行分享。
邓飞
2022/12/12
4.1K0
统计遗传学:第九章,GWAS+群体分析+亲缘关系分析
推荐阅读
相关推荐
Nature | 西湖大学,gsMap:空间+转录组+基因组+性状联合分析,可将空间基因表达与复杂性状相关联
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验