首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >R语言里将vcf文件转换为GenAlEx格式数据

R语言里将vcf文件转换为GenAlEx格式数据

作者头像
用户7010445
发布于 2024-06-07 11:36:04
发布于 2024-06-07 11:36:04
58500
代码可运行
举报
运行总次数:0
代码可运行

GenAlEx 格式

https://grunwaldlab.github.io/Population_Genetics_in_R/Data_Preparation.html

在这个链接里有介绍

如果有了这个格式的数据可以用R语言的poppr包做主成分分分析。

公众号有读者留言问到如何将vcf格式的数据转换成 genalex格式

我查了一下找到一个链接

https://rdrr.io/github/green-striped-gecko/dartR/man/gl2genalex.html

Converts a genlight object into a format suitable for input to genalex

如何获取 genlight object

找到了一个参考链接

https://cran.r-project.org/web/packages/vcfR/vignettes/converting_data.html

这里需要用到vcfR这个R包

安装这两个R包

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
install.packages("vcfR")
BiocManager::install("SNPRelate")
install.packages("dartR")
install.packages("poppr")

加载R包

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
library(vcfR)
library(dartR)
library(poppr)

读取vcf文件进行转换

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
vcf<-read.vcfR("D:/Jupyter/practice/rMVP_GWAS/smoove.filtered.impute.vcf.gz")
x <- vcfR2genlight(vcf)

x$ind.names ## 按照这个顺序准备一个群体分组

pop(x)<-sample(c("pop1","pop2","pop3"),102,replace = TRUE) ## 我这里的群体分组是随便给的
gl2genalex(x,outfile = "smoove.csv",outpath = "D:/Jupyter/practice/rMVP_GWAS")

部分输出结果

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小明的数据分析笔记本 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
使用R语言对SSR数据做主成分分析(PCA)的一个简单小例子
使用到的是R语言的poppr包中的read.genalex()函数poppr第一次使用需要先安装
用户7010445
2021/02/22
1.8K0
使用R语言对SSR数据做主成分分析(PCA)的一个简单小例子
使用R语言利用vcf格式文件计算核苷酸多样性简单小例子
如果当前目录下只有vcf格式文件,会遇到报错Failed to open .vcf.gz: could not load index,可以参考 https://www.cnblogs.com/chenwenyan/p/11945445.html
用户7010445
2021/03/15
1.8K0
在R里面玩转vcf文件
其中meta存储着vcf的头文件,而fix存储在vcf的固定列,gt存储在样本基因型信息。
生信技能树
2018/12/07
4.6K1
整理了一些自己可能会用到的R包
rPlotter 非常方便的在图片中抽提颜色 #devEMF Rstudio不能够直接输出emf格式图片,借助devEMF包可以实现 简单用法 library(devEMF) emf("bar.emf") plot(1,1) dev.off() 或者借助savePlot()函数在原生的Rgui中运行 library(ggplot2) ggplot()+geom_point(aes(x=1,y=1)) savePlot(filename="practice",type="emf")#文件名不用添加后缀 S
用户7010445
2020/09/22
2K0
整理了一些自己可能会用到的R包
R语言rMVP包做GWAS(全基因组关联分析)分析实例
本篇推文的示例数据来源于参考书 《Genome-Wide Association Studies》的第十章 A Practical Guide to Using Structural Variants for Genome-Wide Association Studies。
用户7010445
2024/05/18
2.6K1
R语言rMVP包做GWAS(全基因组关联分析)分析实例
R语言利用vcf文件计算等位基因频率和连锁不平衡(LD)R方
https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-022-08418-7
用户7010445
2024/05/27
6300
R语言利用vcf文件计算等位基因频率和连锁不平衡(LD)R方
PCA方法校正群体结构,GWAS该用多少个主成分?
群体结构(population structure),或者说群体分层(population stratification),是由于个体之间非随机交配而导致的群体中亚群之间等位基因频率的系统差异。这种系统差异,是全基因组关联研究(GWAS)中影响非常大的混淆变量,可以造成非常大的假阳性。
实验盒
2021/09/22
4.9K3
PCA方法校正群体结构,GWAS该用多少个主成分?
R语言中操作vcf文件的一个实例—vcfR包
参考资料链接 https://grunwaldlab.github.io/Population_Genetics_in_R/analysis_of_genome.html https://github.com/grunwaldlab/Population_Genetics_in_R 安装vcfR 直接通过install.packages()函数就可以安装 install.packages("vcfR") vcfR简介 vcfR is a package intended to help visualiz
用户7010445
2020/03/03
7.1K0
跟着Nature Genetics学数据分析:R语言admixtools群体历史推断初次尝试
https://www.nature.com/articles/s41588-023-01423-w
用户7010445
2023/08/23
1.1K1
跟着Nature Genetics学数据分析:R语言admixtools群体历史推断初次尝试
使用R语言用DNA序列做主成分分析(PCA)的简单小例子
之前也有人在公众号 留言问过如何用DNA序列做主成分分析,当时我也不知道,但是大体有一个思路 就是先比对,然后把比对的数据转换成通常用的snp数据应该就可以了,但是也仅限于思路,完全不知道如何操作,今天坐车回家,路上无聊,翻了一下电脑上保存的一些资料,发现了一个办法:可以借助R语言的adegenet包,用到的函数是fasta2genlight() fasta2genlight()函数的只要作用 The function fasta2genlight extracts SNPs from alignments
用户7010445
2021/02/05
1.8K0
R语言实现VCF文件的处理可视化
基因突变数据大家应该很熟悉,作为突变信息的存储文件VCF文件,记录了突变的位点以及对应的突变信息。文件分为三个部分 ‘#’号开头行——meta, 非#号开头行分为fix和gt两个部分。fix部分存储vcf文件中非#号开头行的前7列,分别是染色体编号、碱基位置、ID、参考碱基、变异碱基、质量值、是否过滤;gt 部分存储两部分内容format、样本基因型。今天给大家介绍下在R语言中处理vcf文件的包vcfR。首先看下包的安装:
一粒沙
2021/10/21
5.8K1
多样本vcf文件转换成R语言韦恩图输入格式
基因组重测序的论文中有些可能会用韦恩图来展示不同样本snp的交集和差异。那么如何将手头的vcf文件转换成R语言里做韦恩图要求的数据格式呢?想了几天有了一些想法,记录在这里。
用户7010445
2020/03/03
1.7K0
根据vcf文件计算群体间Fst;构建进化树;网络图;PCA
Fst:群体间固定系数(Fixation index),用来衡量种群分化程度,取值从0到1,为0则认为两个种群间是随机交配的,基因型完全相似;为1则表示是完全隔离的,完全不相似。其是一种以哈迪温伯格定律为前提的种群遗传学统计方法。
用户7010445
2020/03/03
7.5K1
可能会用到的R语言包~2
现在好像内置52种声音,我自己都试了一遍。最开始想直接写循环,R直接自己退出了。接下来想到能不能在循环的时候设置时间间隔?暂时还不知道如何实现。遂单条命令一个一个运行。
用户7010445
2020/11/05
1.2K0
R语言数据分布检验的小例子
今天在B站看了毕导的《我给自己发了2亿个红包,才发现先抢和后抢的差距这么大!》的视频,非常有意思,大家感兴趣也可以到B站观看。
用户7010445
2020/03/03
2.4K0
R语言里可视化多序列比对(paf格式)的R包:pafr
https://cran.r-project.org/web/packages/pafr/vignettes/Introduction_to_pafr.html
用户7010445
2022/04/08
1.3K0
R语言里可视化多序列比对(paf格式)的R包:pafr
Bioconductor 中的 R 包安装教程(续一)
Bioconductor 是与特定版本的 R 绑定的,正常来说当 Bioconductor 的包都来自同一版本时,它们的效果最佳。
章鱼猫先生
2021/11/26
8.2K0
R语言学习笔记-Day4
R和Bioconductor主网站位于国外,可选择国内镜像e.g.清华镜像(tuna, Beijing)、中科大镜像(ustc, Hefei)
用户11190095
2024/07/06
3090
R语言实现eQTL分析
今天给大家介绍一个GWAS分析过程中的一个重要的环节eQTL(表达数量性状位点)分析。eQTL指的是染色体上一些能特定调控mRNA和蛋白质表达水平的区域,其mRNA/蛋白质的表达水平量与数量性状成比例关系,通俗点讲就是把基因表达作为一种性状,研究遗传突变与基因表达的相关性。
一粒沙
2019/07/31
10.4K0
生信人的R语言视频教程-语法篇-第二章:与R语言的第一次约会(R语言安装和下载)
下载地址为:https://cran.r-project.org 进入链接,如下图所示,在页面顶部提供了三个下载链接,分别对应三种操作系统:Windows、Mac和Linux。请选择自己操作系统对应的链接。
DoubleHelix
2020/04/21
8620
生信人的R语言视频教程-语法篇-第二章:与R语言的第一次约会(R语言安装和下载)
推荐阅读
相关推荐
使用R语言对SSR数据做主成分分析(PCA)的一个简单小例子
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档