首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >基于全基因组的基因家族分析(1):数据准备

基于全基因组的基因家族分析(1):数据准备

作者头像
生信技能树
发布于 2019-05-13 11:05:11
发布于 2019-05-13 11:05:11
3.8K00
代码可运行
举报
文章被收录于专栏:生信技能树生信技能树
运行总次数:0
代码可运行

1.基因组下载网站介绍

Sol Genomics Net:茄科基因组网络,里面包括了很多物种的基因组测序结果:番茄,土豆,茄子等。而且基因组更新最快,搜索了一下发现NCBI番茄基因组和Phytozome番茄基因组为ITAG2.4,而SGN已经是最新版本的ITAG3.2,当然以前的版本也都存在,特别方便。 此外,NCBI ProteinID是refseq accession(GENBANK文件格式有关于NCBI中ID的说明),在最后转换到番茄protein ID时会有问题,小编最后终于放弃,没有找到转换的方法(谁要是知道方法,麻烦告诉我一下,一直很苦恼)。而Phytozome要下载这些数据居然还要注册,真的有点烦,偷偷告诉你,SGN貌似也要注册(这个大家应该都没有什么问题,就直接跳过)。

刚开始选择很关键,最好我觉得还是选择最新的版本,SGN还是比较信赖。而且在后面分析基因家族的时候,会出现家族数量相差比较大,可能有10个左右的差距,新版本的基因会多。(小编因为做的跟番茄相关,所以选择了番茄,对这些网站稍微熟悉一点,大家可以选择自己熟悉的领域相应选择)。

SGN

Pythozome

NCBI

NCBI RefSeq Accession

SGN完整版基因组

2.序列相关文件下载

基础文件一般我们下载4个:CDS.fa、Protein.fa、GFF.gff3和Genome.fa

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 小编在home目录下新建sra目录,所有数据都放在这个目录里面
cd ~/sra
# 全基因组CDS序列下载
wget ftp://ftp.solgenomics.net/tomato_genome/annotation/ITAG3.2_release/ITAG3.2_CDS.fasta
# protein序列下载
wget ftp://ftp.solgenomics.net/tomato_genome/annotation/ITAG3.2_release/ITAG3.2_proteins.fasta
# gff注释文件下载
wget ftp://ftp.solgenomics.net/tomato_genome/annotation/ITAG3.2_release/ITAG3.2_gene_models.gff
# genome序列下载
wget ftp://ftp.solgenomics.net/tomato_genome/assembly/build_3.00/S_lycopersicum_chromosomes.3.00.fa.tar.gz
# 解压genome压缩文件
tar -zxvf S_lycopersicum_chromosomes.3.00.fa.tar.gz && rm S_lycopersicum_chromosomes.3.00.fa.tar.gz
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-05-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
转录组参考基因-5
首先转录组数据分析流程如下,之前的课程中已经介绍过文件夹的建立和原始数据的过滤,接下来要进行基因比对——将测序数据与基因文件进行匹配。
生信菜鸟团
2024/07/10
1770
转录组参考基因-5
不可不知的基因组版本对应关系
不同版本对应关系 hg19,GRCH37和Ensembl75是三种国际生物信息学数据库资源收集存储单位,即NCBI,UCSC和ENSEMBL各自发布的基因组信息。 hg系列,hg18/19/38来自UCSC,也是目前使用频率最高的基因组。从出道至今我就只看过hg19了,但是建议大家都转为hg38,因为它是目前的最新版本。 基因组各种版本对应关系综合来看如下所示: GRCh36 (hg18): ENSEMBL release_52. GRCh37 (hg19): ENSEMBL release_59/61/6
生信技能树
2018/03/08
3.9K0
GeneMarkS | 原核生物基因组预测①
原核生物的基因没有内含子,其基因预测相对真核生物简单。本期将以大肠杆菌基因组为例,讲解如何使用GeneMarks对原核基因组进行预测。
生信real
2022/08/18
4.1K0
GeneMarkS | 原核生物基因组预测①
lncRNA实战项目-第三步-了解参考基因组及注释文件
下载原始测序数据: 在GEO数据库搜索GSE87182, 这里没有直接给出ftp地址,需要先从BioProject找到SRA号,可以得到RNA-Seq的SRA的accession_list,共64组数
生信技能树
2018/03/05
2.9K0
lncRNA实战项目-第三步-了解参考基因组及注释文件
(15)基因组各种版本对应关系-生信菜鸟团博客2周年精选文章集
这是我的成名作: 首先是NCBI对应UCSC,对应ENSEMBL数据库: GRCh36 (hg18): ENSEMBL release_52. GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75. GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82. 可以看到ENSEMBL的版本特别复杂!!!很容易搞混! 但是UCSC的版本就简单了,就hg18,19,38, 常用的是hg19,但是我推荐大家都转为hg38 看起来N
生信技能树
2018/03/08
1.9K0
保姆级参考基因组及其注释下载教程(图文详解)
自从 1990 启动的家喻户晓的人类基因组计划开始,全世界的科学家竭尽全力破译了第一个完整的人类基因组,从那时开始人类拿到了一本只有 ATCG 四个碱基书写的天书。后续人们逐步完善了基因组序列信息,并写在 Fasta 格式的文本文件“天书”中,这本天书就叫做参考基因组。
生信菜鸟团
2021/07/05
12.7K0
保姆级参考基因组及其注释下载教程(图文详解)
RNA-seq(4):下载参考基因组及基因注释
那下载哪个基因组呢?先了解一下: https://bitesizebio.com/38335/get-to-know-your-reference-genome-grch37-vs-grch38/
Y大宽
2018/09/10
5.4K0
RNA-seq(4):下载参考基因组及基因注释
基因组实战03: WGS toy example
借鉴Reference中第2、3篇文章的代码。分析的数据是大肠杆菌,因为基因组小,适合拿来快速跑通整个流程 00 下载fastq数据 图片 mkdir -p ~/Project/DNA/raw cd ~/Project/DNA/raw wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR177/003/SRR1770413/SRR1770413_1.fastq.gz wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR177/003/SRR
生信探索
2023/03/31
4250
宏基因组分析环境搭建
NCBI 的分类数据库,包括大于 7 万余个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。其目的是为序列数据库建立一个一致的种系发生分类学。截止到目前,各个物种的统计结果见下表。
生信喵实验柴
2023/02/24
1.4K0
宏基因组分析环境搭建
RNA-seq 保姆教程:差异表达分析(一)
RNA-seq 目前是测量细胞反应的最突出的方法之一。RNA-seq 不仅能够分析样本之间基因表达的差异,还可以发现新的亚型并分析 SNP 变异。本教程[1]将涵盖处理和分析差异基因表达数据的基本工作流程,旨在提供设置环境和运行比对工具的通用方法。请注意,它并不适用于所有类型的分析,比对工具也不适用于所有分析。此外,本教程的重点是给出一般的分析流程。对于更大规模的研究,强烈建议使用集群来增加内存和计算能力。
数据科学工厂
2023/02/27
2K0
RNA-seq 保姆教程:差异表达分析(一)
熟悉数据库的下载
生物数据的处理本质上有两条路线:其中一条是序列本身具有结构特征,那么就可以通过软件算法来实现,比如预测基因,非编码 RNA,重复序列的分析等;另一条路线是序列本身没有结构特征,只能通过与已有序列进行比对,根据已知信息来推测未知信息,比如基因功能注释,16SrRNA 物种鉴定等,常见的一个例子就是得到一条序列,需要判断序列来自于哪个物种,就只能与数据库进行比对。
生信喵实验柴
2021/12/21
1.7K0
熟悉数据库的下载
通过简单数据熟悉Linux下生物信息学各种操作
关于trimmomatic相关内容请见https://zhuanlan.zhihu.com/p/28924793 https://www.jianshu.com/p/a8935adebaae 结果会产生以下四个文件
Y大宽
2019/06/24
2.5K0
通过简单数据熟悉Linux下生物信息学各种操作
基于全基因组的基因家族分析(2):SlNRAMP家族基因成员鉴定
番茄(Solanum lycopersicum),最喜爱的蔬菜水果之一。摘录维基百科最基本的介绍,详细了解番茄的起源,自行Google。小编还是喜欢Transporter gene family,就觉得特别有意思。植物对于各种营养元素的吸收,都需要其帮助,一旦缺少了,轻则营养不良,重则一命呜呼。本次流程,我选择了The natural resistance-associated macrophage protein (NRAMP)家族。
生信技能树
2019/05/14
1.4K0
玩转参考基因组
在研究基因序列层面变化的时候,对基因组序列有一个全面的认知及学会怎么对序列基本操作十分重要。
生信菜鸟团
2025/04/15
2480
玩转参考基因组
新冠参考基因组构建
目前新冠病毒的基因组拼接主要采用与参考序列比对,生成一致性序列的方法。所以,参考序列就非常重要,那么参考序列从何而来,参考序列是否准备,遇到新物种如何构建参考序列?
生信喵实验柴
2022/04/07
8630
新冠参考基因组构建
鉴定lncRNA流程全套代码整理
前两期周更我们通过一篇文章的复现整理了mRNA和lncRNA分析基本流程,但并没有涉及新lncRNA的鉴定,本周的推文本质上是我个人学习鉴定lncRNA的全套流程笔记,整合了我们公众号往期的资源,对代码进行了勘误更新,内容非常详实。
生信菜鸟团
2023/08/23
3.9K1
鉴定lncRNA流程全套代码整理
一文读懂参考基因组和基因组注释+最全下载方法
自从 1990 启动的家喻户晓的人类基因组计划开始,全世界的科学家竭尽全力破译了第一个完整的人类基因组,从那时开始人类拿到了一本只有 ATCG 四个碱基书写的天书。后续人们逐步完善了基因组序列信息,并写在 Fasta 格式的文本文件“天书”中,这本天书就叫做参考基因组。
白墨石
2021/06/10
3.4K0
一文读懂参考基因组和基因组注释+最全下载方法
转录组—上游分析_如何拿到count矩阵
本文档记录GSE149638数据集中下载SRR11652578和SRR11652615原始数据
sheldor没耳朵
2024/08/12
6541
转录组—上游分析_如何拿到count矩阵
小鼠全基因组数据分析
We performed WGS on a CRISPR–Cas9-edited mouse to identify all off-target mutations and found an unexpectedly high number of SNVs compared with the widely accepted assumption that CRISPR causes mostly indels at regions homologous to the sgRNA.
生信技能树
2018/08/16
2.7K0
Nr数据库子库构建
在经过基因组组装或转录组差异基因表达量分析之后,对其结果进行注释是比较重要的一步,如何注释以及如何得到精确的注释结果?
生信菜鸟团
2022/02/17
4.1K0
Nr数据库子库构建
相关推荐
转录组参考基因-5
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档