首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >初探PLINK文件格式(bed,bim,fam)

初探PLINK文件格式(bed,bim,fam)

作者头像
生信与临床
发布于 2020-08-06 02:03:11
发布于 2020-08-06 02:03:11
4.3K0
举报

近十几年来,全基因组关联研究(Genome-Wide Association Study,GWAS)迅速发展,为探索疾病的发病机制做出了突出贡献,也为精准医学的发展奠定基础。在我们进行GWAS分析时,经常会使用到PLINK软件,对于新手来说可能掌握起来比较困难,所以首先我将和大家分享PLINK文件的基本格式。

我在这里讲到的PLINK文件主要有三类,即bed,bim和fam文件。其中bed是存储基因型信息的,bim文件则是存储每个遗传变异(通常是SNP)的相关信息,最后的fam存储的是样本信息,接下来我将一一介绍。

文件bed主要是存储等位基因信息,它开头前三个字节永远是0x6c, 0x1b, 和0x01,接下来就是V组N/4个字节的序列,这里V是指遗传变异的个数,N是指样本数,假如N无法被4整除,那么将N/4的结果取整后加1作为各组的字节数,编码信息如下:

00:基因型是bim文件第一个等位基因的纯合子

01:基因型缺失

10:基因型是杂合子

11:基因型是bim文件第二个等位基因的纯合子

如果你在PLINK里加载如下文件:

test.ped: 1 1 0 0 1 0 G G 2 2 C C 1 2 0 0 2 0 A A 0 0 A C 1 3 1 2 1 2 0 0 1 2 A C 2 1 0 0 1 0 A A 2 2 0 0 2 2 0 0 2 2 A A 2 2 0 0 2 3 1 2 1 2 A A 2 2 A A

test.map: 1 snp1 0 1 1 snp2 0 2 1 snp3 0 3

那么它就会自动生成一个bed文件,查看bed文件内容为:

0x6c 0x1b 0x01 0xdc 0x0f 0xe7 0x0f 0x6b0x01

同时也会有bim文件:

1 snp1 0 1 G A 1 snp2 0 2 1 2 1 snp3 0 3 A C

这里bed文件的前三个字节是固定格式,第四个字节0xdc的二进制值为11011100,那么在第一个SNP(snp1)上,样本1的基因型00对应就是GG(从后往前数),样本2的基因型11对应就是AA, 样本3的基因型缺失,样本4基因型11对应AA,第五个字节0x0f 的二进制值为00001111,那么样本5的基因型11对应AA,样本6基因型11也对应AA,注意了后面的00和00是指6个样本每四个分一组需要分为两组,但由于两组需要8样本,这时就缺少两个样本,这缺失的就用00表示。这里第6和第7字节存储的是第二个snp的基因型信息,推断方法同上,这里就不赘述了。

讲完bed文件后,bim文件应该非常好理解了,这里bim文件是一个没有题头的文本文件,每一行代表一个遗传变异,共计有6列,其信息如下:

(1) 第一行:染色体编号(通常用整数标记,如22表示第22条染色体,性染色体和线粒体染色体用'X'/'Y'/'XY'/'MT'表示,而'0' 代表染色体信息缺失) ;

(2) 第二行:变异标识符,这个就相当与每一个遗传变异的编号,常见的SNP可以采用以“rs”开头的编号;

(3) 第三行:每个遗传变异在基因组上的位置,用摩尔根或者厘摩尔根表示;

(4) 第四行:碱基对的坐标;

(5) 第五行:等位基因1,通常是次要等位基因(minor allele);

(6) 第六行:等位基因2,通常是主要等位基因(major allele)。

关于fam文件,它也是一个没有题头的文本文件,每一行代表一个样本,共计6列,其信息如下:

(1) 第一行:家系编号('FID')

(2) 第二行:家系内部编号('IID'; 不能是 '0')

(3) 第三行:父系编号 ('0' 表示父系信息缺失)

(4) 第四行:母系编号('0' 表示母系信息缺失)

(5) 第五行:性别编号('1' = 男, '2' = 女, '0' = 性别未知)

(6) 第六行:表型值 ('1' = 对照, '2' = 病例, '-9'/'0'/表示表型缺失)。

关于PLINK文件的基本格式就介绍完毕了,希望大家能牢记各个文件的结构信息,这在后续的数据分析中非常重要。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-04-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信与临床 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
plink软件cookbook
快,真的是快,我用perl或者Python编写的代码运行需要50s,plink不到1s完成,在C语言面前,我掌握的语言是苍白的。所以,好好利用plink软件,对于速度的提升非常显著。
邓飞
2021/03/30
2.3K0
plink软件cookbook
plink软件初体验1--初试牛刀
准备写一系列plink软件常用的命令,最近在数据分析时,需要将基因型的数据转化为0-1-2的形式,编程实现效果太差,100万的数据,plink十几秒完成,真的是厉害,非常值得学习,所以,开始搞起!
邓飞
2020/11/03
1.3K0
BOLT-LMM用户手册笔记
BOLT-LMM软件包目前由两种主要算法组成,即用于混合模型关联分析的BOLT-LMM算法和用于方差分量分析(即SNP遗传性的分区和遗传相关性的估计)的BOLT-REML算法。
用户1075469
2022/03/04
2.9K0
BOLT-LMM用户手册笔记
plink软件初体验2--常用参数
plink软件是GWAS分析中常用的软件,它也是一个数据格式,plink里面有很多非常强大的功能,运算速度很快,是我日常分析中常用的软件之一。
邓飞
2020/11/26
3.5K0
统计遗传学:第八章,基因型数据质控
大家好,我是飞哥,本章节是理论+实操,干货满满,这里我将书中的数据用代码进行了实现,你可以下载相关的数据,用我整理好的代码进行操作,666!
邓飞
2022/12/12
1.9K0
统计遗传学:第八章,基因型数据质控
Excel格式的SNP数据怎么变为plink格式
有时候,我们会遇到Excel格式的基因型数据,这篇博文介绍一下如何手动转为plink格式。
邓飞
2022/05/19
1.9K0
Excel格式的SNP数据怎么变为plink格式
一文掌握Plink文件格式转换
Plink是我们常用的全基因关联分析工具,具有多种文件格式。许多分析工具都需要Plink的文件格式作为输入文件,今天小编就带大家掌握多种Plink文件格式的转换,解决分析过程中遇到的输入文件问题。
生信小王子
2020/08/10
2.6K0
统计遗传学:第九章,GWAS+群体分析+亲缘关系分析
本篇,使用数据和代码演示的形式,展示了GWAS分析、群体结构分析、亲缘关系分析三部分内容。我又重演了一遍,修正了一些bug。文中代码和数据我回头专门整理相关博文进行分享。
邓飞
2022/12/12
4.2K0
统计遗传学:第九章,GWAS+群体分析+亲缘关系分析
统计遗传学:第七章,基因型数据格式介绍
BEAGLE 5.0: https://faculty.washington.edu/browning/beagle/beagle.html.
邓飞
2022/12/12
1.7K0
统计遗传学:第七章,基因型数据格式介绍
孟德尔随机化之遗传学概述
许多生物的遗传信息(或基因组)由长长的一串遗传密码组成,这些遗传密码以DNA(脱氧核糖核酸)的形式存在,DNA是编码生命的分子,被包装成染色体。人类有23对染色体,每对染色体中的一条来自母亲,一条来自父亲。染色体包含基因,这些基因是遗传密码的可定位区域,编码一个可遗传信息单元,但是并非所有的遗传序列都属于基因区域,并且染色体的大部分由称为非编码DNA的中间遗传物质组成。每个染色单体有两条链,每条链由一个可以由字母A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)和G(鸟嘌呤)表示的核苷酸序列组成。这些核苷酸链以互补方式配对(A与T配对,C与G配对),这样每个链包含相同的信息,因此仅考虑其中一个链。
生信与临床
2020/08/06
8990
PLNIK 的多种文件格式转换
plink --vcf snp.vcf --recode --out snp ped和map文件是Plink的基本格式。
用户9434941
2022/02/05
3.1K0
笔记GWAS 操作流程2-3:MAF过滤
因为这里是人的数据,所以染色体只需要去1~22的常染色体,提取它的家系ID和个体ID,后面用于提取。
邓飞
2020/04/14
5.8K0
笔记GWAS 操作流程2-3:MAF过滤
R语言实现GWAS数据文件格式转化
全基因组关联分析(GWAS)大家都不陌生,今天我们给大家介绍下各种格式之间转化在R语言是怎么实现的。首先我们来看下GWAS都有哪些数据格式:
一粒沙
2019/07/31
4.7K0
GBS hapmap 格式 转化为Plink格式方法
进行重测序或者GBS时,hapmap 是比较常见的格式,生信中经常使用这种格式。但是在GWAS和GS中,数据筛选,质控,构建矩阵都是使用的plink的格式。本文介绍如何tassel 和vcftools两个软件,将hapmap格式的数据转化为plink格式的数据。
邓飞
2024/12/30
2490
GBS hapmap 格式 转化为Plink格式方法
多基因风险评分(PRS)分析教程
多基因风险评分(Polygenic Risk Score)分析过程概览。PRS 分析需要两个输入数据集:i)base data(GWAS):全基因组范围内遗传变异的基因型-表型关联的摘要统计信息(例如 beta,P值) ;ii)target data:目标样本中个体的基因型和表型。基于 base data 得到的 SNP 效应值计算 target data 中样本的 PRS。
生信菜鸟团
2020/08/04
16.8K0
多基因风险评分(PRS)分析教程
BGEN格式如何使用?有经验的家长已经给孩子收藏了。。。
大家好,我是邓飞,我本来以为vcftools处理gvcf已经天下无敌了,没想到bgen格式更豪横,快看,这是谁的部下?
邓飞
2022/12/13
1.3K0
BGEN格式如何使用?有经验的家长已经给孩子收藏了。。。
基因型填充(Genotype-Imputation):从原理到操作
基因型缺失:样本中没有被测序数据覆盖到的区域,基因型就属于未知的,我们将之称为缺失位点
用户9434941
2022/02/05
2.9K0
bioinfo05-GWAS学习
发现plink2 和plink 差别还是挺大的,没什么plink2 教程,还是用老版。
北野茶缸子
2022/05/19
4750
bioinfo05-GWAS学习
图文详解 VCF 生信格式 (变异信息)
vcf (Variant Call Format)是一种用于存储基因组序列中的变异信息
白墨石
2023/11/10
4.2K1
图文详解 VCF 生信格式 (变异信息)
统计遗传学:第一章,基因组基础概念
前几天推荐了这本书,可以领取pdf和配套数据代码。这里,我将各个章节介绍一下,总结也是学习的过程。
邓飞
2022/07/27
7870
统计遗传学:第一章,基因组基础概念
相关推荐
plink软件cookbook
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档