点击"上海生命基因"关注阅读更多RNAseq信息
导 读
介 绍
肿瘤基因组图谱 (TCGA) 计划由美国 National Cancer Institute(NCI) 和 National Human Genome Research Institute(NHGRI)于 2006 年联合启动的项目,目前共计研究 36 种癌症类型,包括详细病人资料,基因表达,突变,甲基化等数据。本文对肝癌数据进行整理分析(所有图表均包含在数据报告中,可在文末获取下载方式)。
材料方法
TCGA肺腺癌数据:
1)临床资料
522个病人临床资料包括性别,年龄,病理分期,生存时间,存活状态。
2)基因表达数据
522个病人癌组织与癌旁组织基因表达count值,fpkm值数据。
3)miRNA表达数据
522个病人癌组织与癌旁组织miRNA表达count值,tpm值数据。
分析结果
1
mRNA癌与癌旁差异表达分析
1)差异表达基因火山图图
对癌与癌旁样品基因表达数据进行差异分析,取|log2(FoldChange)|≥1、qvalue
2)差异表达基因聚类热图
对差异表达mRNA进行聚类,做热图(前200个差异mRNA)。
3)差异基因GO富集分析
由上述差异表达mRNA进行GO富集分析,直观的反映出在生物过程(Biological Process)、细胞组分(Cellular Component)和分子功能(Molecular Function)富集的GO term上差异表达mRNA的分布情况(各取前15个)。
4)GO富集分析分子功能展示
GO富集分析分析得到的分子功能(Molecular Function)具体term。
5)KEGG pathway通路富集分析
应用超几何检验,找出与整个基因组背景相比,在差异表达基因中显著性富集的Pathway。富集到的Pathway通路:
6)pathway通路图标注
为便于查看mRNA所在基因在通路图中的分布情况,将差异表达mRNA标注到通路图其中包含上调基因的KO节点标红色,包含下调基因的KO节点标绿色(此图为Cell Cycle通路,可以看出显著激活)。
2
lncRNA癌与癌旁差异表达分析
1)差异lncRNA火山图
设定阈值|log2(FoldChange)|≥1且qvalue
2)差异lncRNA聚类热图
对差异表达lncRNA进行聚类,做热图(前200个差异lncRNA)。
3)差异表达lncRNA cis靶基因预测
cis作用靶基因预测认为lncRNA的功能与其坐标临近的蛋白编码基因相关,将lncRNA临近位置的(上下游100kb)蛋白编码基因(仅选择有差异的mRNA)筛选出来作为其靶基因。cis作用靶基因预测结果如下表所示:
4)差异表达 lncRNA 保守性分析
lncRNA保守性普遍较低, 但仍有部分lncRNA具有较高的保守性, 或者具有较高的保守区域。这种多物种保守区域暗示其具有保守的功能。本分析对差异表达lncRNA进行保守性分析,以供后续挑选lncRNA参考,保守性得分最大值为1, 越接近1保守性越高。
3
miRNA癌与癌旁差异表达分析
1)差异表达miRNA火山图
设定阈值|log2(FoldChange)|≥1且qvalue
2)差异表达miRNA聚类热图
对差异表达miRNA进行聚类,做热图。
3
生存曲线分析
将差异表达的mRNA, lncRNA, miRNA使用FPKM或TPM值,以中位值为标准将基因的表达量分为低表达组与高表达组,并采用Kaplan-Meier和log-rank检验法进行生存曲线分析。
领取专属 10元无门槛券
私享最新 技术干货