图表介绍
1.热图
输入数据是数值型矩阵/数据框
颜色的变化表示数值的大小
相关性热图:关于对角线对称,对角线上是同一样本,完全相关,所以是1。
差异基因热图:
2.火山图
#我们下载的GEO的芯片差异分析数据大多情况下已经取过log,如果没去过,要记得计算log(否则会导致logFC值过大)
Foldchange(FC):处理组平均值/对照组平均值
LogFoldchange(logFC):Foldchange取log2。
Log2(x/y)=log2(x)-log2(y)
LogFC的常见阈值,没有标准答案:1、2、1.2、1.5、2.2、0.585=log2(1.5)
3.散点图
4.箱线图:输入数据是一个连续型向量和一个有重复值的离散型向量。可以用来表示单个基因在两组之间的表达量差异。
在做基因的表达差异箱线图时,数据有两个要求:1.分组与表达矩阵一一对应。2. 同一个分组对应同一个名称,比如都是control,不能是control1、control3…,如下
多基因差异分析:limma(只能进行两两比较)
5.PCA
主成分分析,旨在利用降维的思想,把多指标转化为少数几个综合指标(即主成分)
根据这些主成分对样本进行聚类,代表样本的点在坐标轴上距离越远,说明样本差异越大。
图上的点代表样本(中心点除外),点与点之间的距离代表样本与样本之间的差异。
同意分组是否聚成一簇(组内重复好),中心点之间是否有距离(组间差别大)。