生信论文的套路
差异分析,无论是Oncomine,GEPIA,还是UALCAN、HPA数据库,都不需要R语言编写代码,容易上手,基本上一个星期甚至更短的时间就可以搞定,属于菜鸟级别生信操作。并没有想象中那么难。fold change>2(起码1.5),p<0.05是差异分析的基本标准。但是表达的差异≠表型的差异,而这两者关系又密不可分。
生存分析是生信论文中经常出现的表型,也就是说基因在正常和肿瘤组织中表达的差异,与生存率的指标密切相关。如A基因在肿瘤中表达明显上调,生存率显著下降,这就是非常明确的相关性。当然,这种相关性仍然缺乏严谨的证据,只是存在相关关系,至于A基因是否参与调控患者的生存率,这是不能保证的。
我们用不太严谨的方式举例如下。如果A基因与患者的生存率密切相关,且参与调控患者的生存率,那么学术上讲,A基因就是driver gene(driver mutation);如果A基因与患者的生存率密切相关,但不参与调控患者的生存率,那么A基因就是passenger gene (passenger mutation)。
生存分析是非常重要的表型,诸多文章均有介绍。这里,我们对生存分析的纯生信数据库进行总结,果友们在选择时也可以作为参考。
生存分析数据库
Kaplan-Meier Plotter数据库(生存分析经典数据库,首选)
http://kmplot.com/analysis/
PrognoScan数据库(生存分析信息最全面的数据库,次选)
http://dna00.bio.kyutech.ac.jp/PrognoScan/index.html
GEPIA(国人之光,相关性分析是特色)
http://gepia.cancer-pku.cn/detail.php?gene=&clicktag=survival
UALCAN(甲基化是特色)
http://ualcan.path.uab.edu/
Oncolnc数据库(连mRNA, miRNA, or lncRNA也可以做生存分析)
http://www.oncolnc.org/
cBioPortal(组学分析神器也能做生存分析)
https://www.cbioportal.org/
差异分析数据库
oncomine数据库(差异分析首选)
https://www.oncomine.org/resource/main.html
GEPIA数据库(共表达是特色)
http://gepia.cancer-pku.cn/index.html
TIMER(免疫浸润分析是特色)
https://cistrome.shinyapps.io/timer/
HCCDB(肝癌数据库)
http://lifeome.net/database/hccdb/home.html
UALCAN(甲基化是特色)
http://ualcan.path.uab.edu/
CCLE(基因在细胞系的表达)
https://portals.broadinstitute.org/ccle/
THE HUMAN PROTEIN ATLAS (人类蛋白图谱)
https://www.proteinatlas.org/
Gene Expression Omnibus (基因表达数据库,R语言基础)
https://www.ncbi.nlm.nih.gov/geo/