Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >一文教会你查找基因的启动子、UTR、TSS等区域以及预测转录因子结合位点

一文教会你查找基因的启动子、UTR、TSS等区域以及预测转录因子结合位点

作者头像
生信宝典
发布于 2018-08-17 09:50:01
发布于 2018-08-17 09:50:01
110.8K0
举报
文章被收录于专栏:生信宝典生信宝典

本文授权转载自科研小助手(ID:SciRes)斜体小一号字体为生信宝典的备注或校正

基础知识

首先我们了解一些基础知识(注:文中图片皆可点击放大查看!):

启动子(promoter):与RNA聚合酶结合并能起始mRNA合成的序列。做生信分析时,一般选择上游1 kb,下游 500 nt,也有选上下游各1 kb的。如果关注核心启动子,可见生信宝典之前发布的Jaspar数据库介绍。获取正链或负链的启动子序列时要注意方向。之前awk的教程中有些提及。

转录起始点(TSS):转录时,mRNA链第一个核苷酸相对应DNA链上的碱基,通常为一个嘌呤。

UTR(Untranslated Regions):即非翻译区,是信使RNA(mRNA)分子编码区(CDS)两端的非编码片段。    5’-UTR从mRNA起点的甲基化鸟嘌呤核苷酸帽延伸至AUG起始密码子,3’-UTR从编码区末端的终止密码子延伸至多聚A尾巴(Poly-A)的末端。

生信老司机以中心法则为主线讲解组学技术的应用和生信分析心得 - 限时免费中讲述了如何基于高通量数据对这些区域的调节变化进行分析,可配合此文观看。

1. 查找基因的启动子区域-NCBI

1. 打开PubMed:https://www.ncbi.nlm.nih.gov/pubmed

2. 选择Gene,输入IL17A,点击search,结果如下图,点击第一个:

3. 下拉到下图位置,可以看到该基因的以下信息:

点击Tools,选择Sequence Text View:

还可以看到如下序列信息:

4. 以上只是该基因的一些信息,可以用于查找相应的UTR等区域,下面进入正题,寻找promoter区域。还是拉到如下图位置,点击FASTA:

5. 基因位置信息如下图:

6. 一般认为基因上游2 kb区域为该基因的promoter区域,所以将基因上游2 kb序列调出来:

7. 复制上述序列就是基因的启动子序列了。

2. 查找基因的启动子区域-UCSC

1. 打开UCSC:http://www.genome.ucsc.edu/,点击Table Browser:

2. 按照下图所示填好基因相关信息,点击get output:

3.选择genomic:

4. 勾选Promoter/Upstream by选项,并将其改为2000 bases,然后点击get sequence:

5. 得到下面的序列信息,开头直到第一个大写字母前面的所有小写字母序列即为该基因的promoter序列,你可以跟NCBI上得到的序列比对一下,看看是不是一样的呢?

3. 转录因子结合位点的预测

  1. 后面的预测步骤是改版前的Jaspar,可见上一篇介绍Jaspar的文章学习在 新版Jaspar中怎么预测启动子区域的转录因子结合位点。
  2. 打开http://jaspar.genereg.net/(我这边这个网址暂时打不开了,所以我登录了这个网址:http://jaspardev.genereg.net/),输入转录因子NFAT,点击Quick Search:

2. 将promoter序列粘贴进入右下角的框中,选中左侧转录因子,点击SCAN:

3. 得到28条转录因子NFAT与IL17A的结合位点,其中Strand -1没有特殊意义,只需选择Strand 1即可。

4. 好了,转录因子与promoter结合位点已经有了,接下来就是愉快的通过实验验证了!Luciferase、点突变、截短、ChIP等统统拉上来就可以了!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-08-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信宝典 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
如何获取目标基因的转录因子(下)——Linux命令获取目标基因TF
如何获取目标基因的转录因子(上)一文中我们以人类基因组为例,从ensemble网站下载了基因组中基因位置信息矩阵GRCh38.gene.bed和基因组中转录因子结合位点信息矩阵GRCh38.TFmotif_binding.bed)
生信宝典
2018/09/21
4.3K0
原核非已知转录因子结合位点和可能结合的基因预测
目的: 1、分析该转录因子结合位点。 2、分析该转录因子可能作用的基因及信号通路
Y大宽
2018/10/11
2.2K0
原核非已知转录因子结合位点和可能结合的基因预测
批量预测转录因子(TF)和转录因子结合位点(TFBS)
在真核生物中,基因的编码序列在DNA链上是不连续的,被非编码序列隔开。这些基因,只有在转录因子结合到其特定的DNA序列上后,基因才开始表达。那么,我们要了解的是,什么是转录因子?什么又是转录因子结合的的特定的DNA序列(转录因子结合位点)?
阿凡亮
2020/04/14
14.6K0
就想把表达矩阵区分成为蛋白编码基因和非编码有这么难吗?
考核题的文章里面是自己测了8个TNBC病人的转录组然后分析,这里借助TCGA数据库,所以可以复现。我这里想展现的主要是TCGA的数据下载和基因的ID转换,分类,的理解。
生信技能树
2019/09/24
4.1K0
就想把表达矩阵区分成为蛋白编码基因和非编码有这么难吗?
原核生物基因预测
在得到了一个物种的基因组序列之后,就可以开始对其序列进行分析了。序列分析主要包括结构基因组分析,功能基因组分析以及比较基因组分析几部分。通过对序列进行全面地分析,在基因组水平上了解一个物种的特点。序列分析主要包括基因预测,基因功能注释,ncRNA,重复序列,特殊功能序列,比较基因组等方面。
生信喵实验柴
2022/10/25
1.7K0
原核生物基因预测
数据挖掘—NCBI中获取某基因序列和转录起始位点
https://www.bilibili.com/video/BV1fM411q7tV/?spm_id_from=333.1387.homepage.video_card.click&vd_source=7e83cb2510516bdff59ccf808d022aa0
sheldor没耳朵
2025/05/26
3840
数据挖掘—NCBI中获取某基因序列和转录起始位点
差异表达分析没那么简单
近些年来,过去被视作冗余垃圾的Noncoding RNAs被发现在基因表达调控中发挥了重要作用
生信菜鸟团
2023/09/09
5430
差异表达分析没那么简单
玩转参考基因组
在研究基因序列层面变化的时候,对基因组序列有一个全面的认知及学会怎么对序列基本操作十分重要。
生信菜鸟团
2025/04/15
1890
玩转参考基因组
基因功能简介
1、基因、DNA、染色体之间的关系:染色体由DNA和蛋白质构成,基因是DNA上具有遗传效应的片段。
生信real
2020/08/26
1.1K0
基因功能简介
HOMER - motif 挖掘和分析
假设我们有一组ChIP-seq实验的峰值区域(目标序列),希望从中发现显著富集的转录因子结合基序(motif)。以下是HOMER的motif发现流程:
生信菜鸟团
2025/03/11
5600
HOMER - motif 挖掘和分析
一文读懂DNA甲基化及BS-seq
DNA甲基化是一个生物过程,它会在在DNA分子中引入甲基化基团,但是甲基化并不会改变序列本身,而会改变DNA片段的活性。
生信菜鸟团
2020/09/14
2K0
一文读懂DNA甲基化及BS-seq
VEP注释结果怎么看?
众所周知,对于VCF文件的注释常用的有VEP、SnpEff、ANNOVAR等,软件各有优势,选择哪个工具通常取决于具体的分析需求、数据类型和用户的技术背景。例如,VEP因其提供的丰富注释信息和易用性而被广泛使用。今天就先来详细了解一下VEP的注释结果。
生信菜鸟团
2024/05/11
1.1K0
VEP注释结果怎么看?
NGS基础 - GTF/GFF文件格式解读和转换
GFF 文件 GFF全称为general feature format,这种格式主要是用来注释基因组。 从 Ensembl 导出的GFF文件示例: X Ensembl Repeat 2419108 2419128 42 . . hid=trf; hstart=1; hend=21 X Ensembl Repeat 2419108 2419410 2502 - . hid=AluSx; hstart=1; hend
生信宝典
2018/02/05
11.9K0
NGS基础 - GTF/GFF文件格式解读和转换
这篇review带你了解,人类线粒体转录的机制与调控
生信菜鸟团
2025/01/02
5630
这篇review带你了解,人类线粒体转录的机制与调控
ChIP-seq数据分析课程学习笔记之peaks的可视化
其中中国医科大的“小高”同学给大家带来的就是ChIP-seq数据分析实战视频课程的配套笔记,希望可以帮助大家更好的吸收消化课程内容!
生信技能树
2021/10/12
8K0
(宏)基因组编码基因预测
基因预测是指通过对组装的基因组序列进行分析,根据已知生物的基因结构知识或数据库序列来识别其所包含的基因等功能区域。编码基因预测,就是识别基因组序列上所包含的蛋白质编码区域(Coding sequence,CDS),通过在基因组序列上寻找开放阅读框(Open Reading Frame,ORF)实现。
SYSU星空
2022/05/05
3K0
(宏)基因组编码基因预测
4️⃣ 核酸序列特征分析(3):启动子区域预测和转录终止信号预测
启动子Promoter是位于基因5'端上游的DNA序列,调控基因表达。作用方式是通过与转录因子结合。关于启动子更详细的简文请看查找一个基因的启动子序列
Y大宽
2019/01/28
1.4K0
查找一个基因的启动子序列
如何查找某个gene的promoter sequence? 首先,知道启动子在哪里? 启动子通常位于转录起始位点(transcription start site,TSS)或第一个exon的上游 其次,找gene的TSS 对于注释好的物种的基因组,就很好找其promoter sequence了。可以去NCBI, Ensembl或UCSC。 其他 人类的启动子相关数据库 Biobase TransPro mPROMDB CSH TRED Eukaryotic Promoter Databs
Y大宽
2018/12/13
4.7K0
查找一个基因的启动子序列
AnimalTFDB 3.0 | 动物转录因子注释和预测的综合资源库
转录因子(Transcription factor,TF)是一类能够以序列特异性方式结合DNA并对基因转录起关键调控作用的蛋白质,在各种生物过程和疾病发生中起非常关键的作用。鉴定、分类和注释转录因子以及分析转录因子的调控和功能等一直是研究的热点和基础,它们在生物体内形成一套指导基因表达的复杂系统引得众多科学家浓厚的研究兴趣。
生信宝典
2018/12/29
6K0
AnimalTFDB 3.0 | 动物转录因子注释和预测的综合资源库
(3)分子生物学专业名词
2、多顺反子见于原核生物意指一个mRNA分子编码多个多肽链。这些多肽链对应的DNA片段则位于同一转录单位内,各自拥有起点和终点。
生信real
2020/08/26
9570
(3)分子生物学专业名词
相关推荐
如何获取目标基因的转录因子(下)——Linux命令获取目标基因TF
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档