最近看到一篇非常有意思的文献,文献标题为《Transcriptome dataset of omental and subcutaneous adipose tissues from gestational diabetes patients》,作者来自 美国密歇根州立大学。这篇文献实在是太经典了,仅仅是 2*2分组常规 bulk 转录组测序即可,并且可以毫不夸张的说:根本无需任何生物学背景就发出来了!
下面来看一看,瞧一瞧,学习怎么利用公司的标准流程分析报告发文章~
取样为 来自 自5个妊娠期糖尿病患者和匹配的5个对照组的皮下和大网膜脂肪组织(AT),展示了这10个patient的一些年龄、BMI、胰岛素等指标。
Table 1
比如转录组建库的时候要求的 RNA 浓度、RIN值(一般建库要求RIN>8,表示RNA是否发生降解)。
Table 2
接着文章给出了 每个样本的数据量,包括测序前的原始测序数据量,以及过滤后的数据量,过滤前后的数据损失比例。
这里的数据量一般指 fq数据 中 每个样本测了多少条read,使用M=1000,000来表示,每个样本测了 多少个碱基,使用G=1000,000,000 表示。
Table 3
数据量在我们的转录组授课中进行了特别强调,因为很多人都 搞不清楚 fq的物理存储大小的G(即所占磁盘空间),以及 测序数据量的G(即10亿)。
第一个图展示了fq数据的每个每个碱基质量值分布,第二图为每条序列的平均碱基质量值分布,第三幅图为每条序列的GC含量密度曲线图。这些图片的详细解释也在我们的 转录组授课 中进行了非常详细的介绍,数据质量好的时候不好的时候都呈现一个什么样的分布。
Fig. 1
A图为hisat2数据总比对率的柱状图,B图为featurecount定量指标的堆积柱状图。一般样本的数据总比对率高于90%,还需要关注一下唯一比对率。
Fig. 2
定量完后拿到一张样本表达矩阵,就可以进行下游分析了,比如差异分析前检查一下样本分组,使用样本相关性热图,样本PCA分析图。除此之外,我们的转录组课程还介绍了层次聚类,样本表达总体分布的箱线图、小提琴图、密度曲线图。
这里的一个重要指标为:样本的组内相关性一定高于组间。
Fig. 3
每种组织的单独PCA分析以及差异结果的MA图展示(可以看得出来,每次差异分析里面的组间差异不明显,反而是组内的样品异质性很大,这样的话就会导致差异基因很少很少,所以 有些差异本来就是不应该很明显)
Fig. 4
每种组织的差异分析结果使用hallmark 通路进行功能富集分析,看到这里 我不禁怀疑,这个作者 知道hallmark通路里面都是什么生物学相关的通路吗?
Fig. 5
全部分析流程如下:
我们随便网上找一篇公开的示例标准分析报告可能都比这强啊:https://www.bioincloud.tech/cloudir/reports/transcriptome/%E7%BB%93%E9%A2%98%E6%8A%A5%E5%91%8A.html