关于转录后调控,之前我们也介绍过很多这个方面的数据库了。其中包括一个我们之前介绍的综合性转录后分析数据库:[[POSTAR2-转录后调控预测网站]]。恰巧最近这个数据库更新了3.0版本。所以我们今天就介绍一下这个新版本的数据库的功能。POSTAR3 (http://postar.ncrnalab.org)
在之前介绍[[RNA-seq相关内容介绍]]的视频当中,作者提到了一个用来分析 RNA-seq 差异表达分析的工具。DEApp: https://yanli.shinyapps.io/DEApp/ 。 所以今天就来简单的介绍一下这个差异表达分析的工具。
我注意到这个研究比较好的结合了传统bulk转录组数据和单细胞转录组数据,值得解读和推荐给大家。
在ceRNA调控网络中,miRNA起到了桥梁的作用,通过和各种RNA分子结合,从而介导该调控机制的发生。starBase数据库提供了miRNA和各种RNA分子的相互作用信息,并在此基础上构建了ceRNA网络,网址如下
于2021年3月发表在CELL杂志的文章, 标题是:《In vivo CD8+ T cell CRISPR screening reveals control by Fli1 in infection
基因转录的过程当中,基因由DNA转录成mRNA的过程受到很多因素的调控。其中就包括了转录因子的调控。转录因子调控的一个主要的过程是转录因子和基因启动子区进行结合进而来对其表达进行调控。由于每个转录因子都有自己的固定的识别序列,所以基于特定的识别序列,我们就可以了解每个转录因子都可能调控哪些基因。随着测序数据的发展,我们也可以通过cihp-seq来准确的了解转录因子的结合区域。同时可以通过RNA-seq来分析转录因子和结合基因之间是否存在共表达关系。之前的转录因子预测的数据库其实都是基于上面的原理来进行构建的。最近,随着单细胞测序数据的增多,我们也可以在单个细胞当中研究不同系统的调控情况。所以今天就给大家介绍一个纳入了单细胞测序数据的一个可以预测基因调控网络的数据库:GRNs[http://www.grndb.com/]
我们都知道,RNA可以分为转运RNA(tRNA), 核糖体RNA(rRNA)以及信使RNA(mRNA)。而tRNA会被降解成一些非编码的小片段。这些小片段就称为tRNA延伸片段(transfer RNA-derived fragments, tRFs)。按照研究类型目前tRFs主要可以分为:5ʹ-and 3ʹ-halves (>30 nt), 5ʹ- and 3ʹ-tRFs (15–30 nt), i-tRFs 和 3ʹU-tRFs 这六个类型。
关于miRNA的基础知识可参考文章:医学科研实验基础知识笔记(十一):非编码RNA。
对于公共测序数据的分析,好多二代测序的数据都储存在 [[GEO数据库介绍]] 以及 SRA 这样的平台。之前介绍过的 [[ARCHS4-公共二代测序数据下载数据库]] 就是把 GEO 的很多 [[RNA-seq]] 的数据进行了统一重新分析最后组合成一个大型数据集。除了 ARCHS4 之外还有其他的大型数据集比如今天要介绍的这个:Digital Expression Explorer 2(DEE2): http://dee2.io/index.html
让我很无语,我又不是带领本科生搞一个学期的课程,仅仅是不到2小时我能讲解什么背景呢:
虽然是一个ID,但是也是需要理解的,这里我们仍然是以 发表在Cancer Cell International,时间是 November 2019 ,标题是 A 3-circular RNA signature as a noninvasive biomarker for diagnosis of colorectal cancer的文章来举例。
我们做转录组分析,得到的数据通常是raw counts 的数据,raw counts 的数据有很多R包进行归一化。在TCGA数据库中下载的RNA-Seq的数据就有2种形式,raw counts 和FPKM,尽管有很多文章是直接利用FPKM进行分析的,但是FPKM存在不准确性,通常我们会使用TPM。关于什么是FPKM?什么是TPM?我在前面的文章中就有介绍:RNA-seq的counts,RPM, RPKM, FPK值到底有什么区别?。如果从原始的下机数据开始分析,那就根据自己需要进行转换,但通常我们大多数拿到的是raw counts数据,一般送测序,也会要求返回raw counts的数据,从数据库下载的数据我们通常也是选择raw counts数据或者FPKM的数据。那么我们如何将这些数据进行转换成TPM的数据呢?read count和FPKM结果都可以转成TPM,但是因为FPKM跟TPM的计算都考虑了基因长度,所以从FPKM转TPM最方便快捷。只需要按照下面公式就可以计算:
但是实际上这样的基因ID转换也不是必须的,因为差异分析要的是表达量矩阵,基因名字并不重要啊,后面的注释也是可以基于ID,一步到位成为功能。比如文章:The effects of Arabidopsis genome duplication on the chromatin organization and transcriptional regulation. Nucleic Acids Res 2019 Sep 5;47(15):7857-7869. PMID: 31184697
我之所以注意到它,主要是他们做了芯片加上测序再结合qPCR,非常的保险。胞外囊泡的芯片分析共发现了85种差异circRNA分子,癌与癌旁组织的高通量测序分析发现了140种显著差异的circRNA分子。两种分析的结果中发现了3个circRNA变化趋势一致,最后又使用QPCR分析,如下所示:
之前我们介绍过关于[[ENCODE-转录调控必知数据库]]这个数据库。目前这个数据库更新到了V 5.0的版本。基本界面也发生了变化。所以这里就重新来介绍一下关于ENCODE: https://www.encodeproject.org/ 。
转录调控是生命活动中重要的调控机制,通过chip_seq数据,我们可以得到转录因子或者组蛋白修饰和基因之间的调控关系。chipBase数据库收集了来自10个物种共一万多个样本的chip_seq数据,整理出了转录因子和各种基因,包括蛋白编码基因,lncRNA,miRNA, tRNA等ncRNA之间的调控网络,该数据库网址如下
其实这些各个技术流程的视频教程好几年前我就全部免费共享在b站,而且我同步分享了视频配套讲义和教辅材料;
我们在进行公共数据挖掘的时候,经常会碰到要对多个数据集联合分析的时候,如果想要把这些数据放到一起进行分析的话,那么首先还是需要先去除批次效应才能进行分析的。之前我们的介绍的数据库的时候,也提到了两个和批次效应有关的数据库。所以今天就来简单的介绍一下这两个数据库。
虽然一直演示的表达芯片数据分析,这些芯片分析难点主要是在ID转换,因为不同公司设计的探针命名都不一样,在我4年前博客整理的芯片平台对应R包找:(16)芯片探针与基因的对应关系-生信菜鸟团博客2周年精选文章集
比如查看 POU5F1 基因:https://www.ncbi.nlm.nih.gov/gene/5460
上一篇文章生物信息中的Python 01 | 从零开始处理基因序列自己造轮子实现了序列的基础操作,但是在Python的世界里,一项工作只要重复的次数多了,那么一定就会有大神来开发相应的包来解决,这个包名就是 Biopython 。接下来我们试着使用它来实现简单的序列处理。
大家应该是都知道,TCGA数据库是目前最综合最全面的癌症病人相关组学数据库,包括:
其实单细胞测序已有十年的历史了,十年来,通量不断提升,成本不断降低,已经到了“旧时王谢堂前燕,飞入寻常百姓家”的历史阶段。不信请看《Nature Methods》2013年度技术;《Nature》2017年7月刊的封面推荐 ;《Science》2018十大科学突破榜首。2019年就国内的情形的来看,大大小小的测序公司开始布局单细胞测序市场,高通量价格战不日将拉开序幕。单细胞测序技术将伴随着高通量技术给临床以及学术界带来新的革命。
今天给大家介绍的是沙特阿卜杜拉国王科技大学(KAUST)高欣教授课题组(http://sfb.kaust.edu.sa)发表在Genome Biology的一篇文章,“Analysis of transcript-deleterious variants in Mendelian disorders: implications for RNA-based diagnostic“。在全外显子组测序(Whole-exome sequencing, WES) 后,至少有50%的疑似孟德尔疾病患者仍未确诊,而未被WES捕获的非编码变体在多大程度上导致了这个比例还不清楚。全转录组测序(RNA-seq)是一种很有前途的WES的补充,但关于RNA分析对孟德尔疾病诊断的大规模贡献的经验数据很少。在这个研究中,作者对疑似孟德尔疾病的5647个家族进行了研究,描述了关于“转录有害变异(transcript-deleterious variants,TDVs)”的经验,为即将实施的RNA-seq结合基因组测序的临床诊断提供了非常需要的经验数据。
对于RNA-seq的数据,之前我们的分析方法只是局限于单个基因之间的整合分析,最多也就是做一下富集这样的聚类分析。前段时间随着肿瘤免疫的热度,也有人试着开始利用RNA-seq这样的数据来评价患者的免疫情况。
circRNA很红,这个大家都知道。尤其是它身上那份高大上的神秘感,引得一众科学家瞬间产生扑倒circRNA的好奇感,并期望能看到该领域中更多不一样的风景。
外泌体(Exosomes)是细胞分泌到胞外的一种纳米级内吞囊泡(40-160nm),含有丰富的内含物(包括核酸、蛋白和脂质等),可以调节受体细胞的行为,并可用作疾病的循环生物标记物。
揭示基因表达的时空模式对于理解从胚胎发生到疾病的核心生物学原理至关重要。来自澳大利亚和美国的研究团队在《communications biology》发表综述,探讨了目前用于阐明空间表达的技术,解释了准确地定量捕捉空间基因表达数据的能力。此类技术为在空间和定量方面对基因表达水平进行无偏倚且详尽的再现,促进对发育缺陷的分子起源的理解和改善医学诊断铺平了道路。
小编为大家爆肝整理了近百个数据库!共分10大类。今天小编先为大家分享前5类。 在整理的过程中,小编发现一些虽然是以前经常被大家推荐使用的数据库,但却已不再维护了,早已不能正常使用了,这种数据库小编也已经贴心的帮大家过滤掉了。那就快来看看有没有你需要的吧!
随着高通量测序技术的不断发展完善,大批量的基因组数据积累在数据库中,这个大家都很清楚。近些年,越来越多的证据表明samll non-coding RNA(sncRNAs)也发挥了很重要的调节作用。同样的,分析这些数据对物生物信息背景的研究人员而言存在诸多困难,这个时候我们就需要一款神器助攻了。
群主想看到,HCC,CHC,CC这3组,跟healthy的分开比较,然后3个火山图,3个热图。
发表在Cancer Cell 2019 Sep的文章 PMID: 31474569:《Single-Cell Transcriptomics in Medulloblastoma Reveals Tumor-Initiating Progenitors and Oncogenic Cascades during Tumorigenesis and Relapse. 》
因此美国的科学家Alexander Lachmann等开发了一个ARCHS4(all RNA-seq and ChIP-seq sample and signature search)网页资源,并于2018年4月10日发表在Nature communications杂志上。
由于是EBI数据库,用wget下载速度太慢,Jimmy大神强烈建议用aspera工具下载,于是参考生信技能树教程代码,首先需要熟悉GEO和SRA数据库:
果然,坚持真的好难,我现在都想不通我是如何坚持七八年每日写笔记做分享,积累着1.3万篇教程的?
由于网站的功能很多,但是后续分析的结果类似,所以我们就用Multiple Gene Expression Tables来进行演示。
小蛋白是翻译自小开放阅读框(small open reading frame, sORF)、长度低于100个氨基酸的蛋白质,在此前的基因组注释中通常被忽略。sORF广泛存在于人类等多种生物的基因组中,包括mRNA的非翻译区(untranslated regions, UTR)以及多种非编码RNA (non-coding RNA, ncRNA)区域,部分能够翻译成小蛋白。近年来,越来越多的研究发现小蛋白在胚胎发育、细胞凋亡、肌肉收缩等多种生物学过程中行使功能,并在肿瘤等疾病进展中发挥作用。
比如这篇Published: 12 March 2019的文章:Identification of Key Long Non-Coding RNAs in the Pathology of Alzheimer’s Disease and their Functions Based on Genome-Wide Associations Study, Microarray, and RNA-seq Data 就采取了挖掘RNA-seq这样的测序数据的策略。
TSCD是Tissue-Specific CircRNA Database的简写,通过软件预测人和小鼠不同组织中的环状RNA,然后去寻找组织特异性的环状RNA。该数据库网址如下
Lnc2Cancer 3.0由哈尔滨医科大学李霞老师和宁尚伟老师课题组开发,发表在2020年10月13日发表在Nucleic Acids Research杂志上。
首先进入TCGA下载数据GBM的RNA-seq和甲基化数据,从下表可见GBM共有172套RNA-seq数据以及437套DNA甲基化数据,由于TCGA提供Infinium HumanMethylation27 BeadChip和Infinium HumanMethylation450 BeadChip两种芯片平台的数据,为了避免后续不同芯片平台间数据合并的困难,仅下载HumanMethylation450的芯片数据,共计154套。
本文目标: (1)使用edger包做TCGA数据库RNA-seq数据差异分析 (2)使用deseq包做TCGA数据库RNA-seq数据差异分析 (3)使用limma包做TCGA数据库RNA-seq数据差异分析 (4)如何在没有生物学重复的情况下(比如说只有两个样本,来求取差异基因)
[[单细胞测序]] 作为一个特别特别已经火上天的测序技术。之前所有在 bulk RNA-seq 上面分析的内容。基本上可以在 scRNA-seq 上面重新来一遍。对于一些在线的数据库也是这样的。我们在研究肿瘤的时候,之前可能只是基于单纯的 RNA-seq 来看一下基因的表达,例如 [[GEPIA2-TCGA表达分析数据库]],但是 scRNA-seq 的增多之后,就会有了 [[CancerSCEM-肿瘤单细胞基因表达图谱]] 这样在单细胞水平看基因的表达情况。 同样在病毒感染方面,之前也有预测病毒感觉的受体在不同组织当中的表达情况的数据库,那么单细胞数据多了之后也就有了 VThunter: https://db.cngb.org/VThunter/VThunter/index 。这个基于单细胞测序观察不同物种当中病毒受体表达情况的数据库。
但很多粉丝留言表示这些英文教程看不懂,数据也很分散,没有中文解说实在是很难跟下来,希望我们出一个手把手系列教程。
既然ChatGPT如此擅长查询和整理资料,那么关于什么是单细胞测序的知识整理,ChatGPT会做的更好吗?我先给出来一个学徒的知识整理,借花献佛给大家。然后大家可以自己玩一下ChatGPT,看看能不能做出来如此出色的整理。
其实是没办法简单的回答是否可以整合TCGA和GTEx数据库,或者说该如何结合,这背后的统计学略微有点复杂,不仅仅是批次效应。发表在Sci Data. 2018; 的文章:Unifying cancer and normal RNA sequencing data from different sources 就比较详细的说明了TCGA和GTEx数据库的转录组数据的天然差异:
chipBase收集来自GEO,ENCODE数据库中的chip_seq数据,通过对这些原始数据进行分析,致力于构建各种转录因子与非编码RNA, 蛋白编码基因之间的调控网络,网址如下
不管是哪种表达矩阵得到的差异分子,以前的mRNA的基因名,或者miRNA,lncRNA,甚至circRNA的ID ,看起来很陌生的ID,都是同样的的分析流程。
领取专属 10元无门槛券
手把手带您无忧上云