生信论文的套路
生信论文36是单基因分析的生信论文,单纯生信数据库的数据分析,没有湿实验验证,但是可以发表在接近5分的期刊上,很多分析做得很棒,值得借鉴。我们对文章数据进行复现。
第一部分,差异分析,已经复现。
第二部分,临床意义(生存分析、相关性分析),复现如下。
有些果友可能已经发现,作者没有用HPA做蛋白水平的差异分析,为什么没有做呢?因为LAYN本身在胃肠道中是高表达的,而HPA肿瘤组织的免疫组化结果中,只有结肠癌,没有胃癌的数据,因此未做。在实际分析时,HPA数据库免疫组化的结果不能牵强使用,不充分不用(肿瘤组织和正常组织的差异不明显),不全面不用(如生信论文36,分析胃肠癌,但是只有结肠癌组织,没有胃癌肿瘤组织的免疫组化图)。
作者在差异分析时,并没有限定肿瘤类型,而是整体分析,所有的肿瘤类型都分析,这样数据就显得多了。但是,在进一步临床意义分析的过程中,作者锁定在某些肿瘤上,如何锁定呢?答案就在后文。
---------------复现--------------
在分析LAYN表达与各种肿瘤生存率的相关性时,作者采用PrognoScan数据库和km plotter数据库(prognoscan+km plotter)双验证的模式,增加数据的可信度和说服力。如同差异分析,双验证总是比单个验证有力量。
prognoscan网址:
http://dna00.bio.kyutech.ac.jp/PrognoScan/index.html.
首先是prognoscan分析生存率。
登录官网,在对话框中输入基因名称,点击submit。
然后出现下表。点击cox p value一栏,使得数据按照cox p从小到大的顺序排列,以获得具有显著差异的生存分析数据。
根据肿瘤类型,cox p value的结果,点击探针Probe ID(蓝色划线,可以点击进去)。出现类似下图结果,可以下载,文章需要的是kaplan-Meier plot数据。截图后在PPT中标注相应信息,即可。
km plotter数据库
作者为什么把临床意义的分析锁定在某些肿瘤上呢?答案就在这里!
因为progscan预后分析只有结肠癌、乳腺癌、眼癌和卵巢癌有显著差异;而km plotter数据库针对乳腺癌、卵巢癌、肺癌和胃癌具有最全面啊的生存分析结果。这样两者取交集,综合判断,作者把关注点放在胃癌和结肠癌上面。
登录网站,进入胃癌的数据(以胃癌为例,其余相同)。
输入基因名称,survival选择OS,其余条件不变。点击plot,生成下图,下载PDF版本。数据中有log rank p,有生存曲线,有病例数等信息。
再在survival选择PFS,其余条件不变。点击plot,生成下图,下载PDF版本。数据中同样有log rank p,有生存曲线,有病例数等信息。
其实,km plotter数据库里还提供PPS的分析结果(也是有显著差异的),不过作者没有展示。
把其余肿瘤的生存率做类似的分析,通过截图和PPT编辑整合,即可获得用于论文发表的图片。
-----------------相关性分析----------------
基因表达相关性分析和与肿瘤分期之间的相关性,是GEPIA数据库的特色,而km plotter数据库也提供了全面的相关性分析,主要是肿瘤类型、临床特征与生存率的相关性。肿瘤类型包括肿瘤分期、病理类型、分化等,临床特征包括性别、胃肠穿孔(perforation)有无(疾病专有特征)、治疗方式和HER2状态等。
依次选择,即可获得相应p值,病例数等信息,用三线表的形式在PPT中编辑,即可获得用于发表的图片。如性别gender处,female和male,可以查看基因差异表达在男性和女性肿瘤患者中,生存率是否有明显不同。
关于果友提出的,如何分析StageN 1+2+3的结果。之前没有注意到,现在复现结果的时候,正好找到了,都是数据库直接提供的数据,因此在复现数据中,我们可以学到更多细节的东西。
在展示三线表的数据时,作者将具有差异的数据加粗,这不失为一种数据可视化的技巧。值得借鉴和学习!
生存分析和相关性分析,难度不大,关键是要有统计学差异。最难的是免疫浸润的分析,烧脑!敬请下次分享。
果友们最常见的困惑是如何获得可用于差异分析、生存分析和探究意义的基因。确实,这是生信分析的难点之一。个人也没有更好的办法,只有多读文献,多去做分析,多去尝试几个基因。在做分析的时候,可以从基因家族和所有肿瘤类型入手,不要局限于某单个基因或者某一种肿瘤。
生信论文36就是从单基因+全肿瘤的思路入手,逐步深入分析,然后得出LAYN在胃肠癌中具有预后价值,并与其免疫浸润密切相关。