现在,假设已经拿到在实际的肝脏中大约 2400 亿个细胞的X基因表达值。
我们接下来,要计算总体均值与估计总体均值。

现在使用实际的2400亿个细胞计算均值,也就是总体均值(Population Mean)


从总体中抽样 5 个样本,计算估计均值(Estimated Mean):

统计学中,用符号x-bar (

) 来表示估计均值,也叫样本均值(Sample Mean)
使用希腊符号μ来表示总体均值(Population Mean)
可以从上图看到,样本均值与总体均值不同,但是随着测量越来越多的数据,x-bar会越来越接近μ。

方差和标准差,代表数据是如何在总体均值周围分布的,计算总体方差的公式:

利用公式去计算,实际数据中的总体方差:

因为每个数据都是经过平方的,所以方差的单位是X基因表达量的平方。
但是X轴上的单位并没有平方,所以在X轴上不能绘制方差。
为了解决这个问题,我们只要对每一项平方根就行:

也就得到了总体标准差,很容易得到它的值:

好,现在我们就可以利用均值和标准差来绘制正态分布曲线了:
总体方差和标准差来决定曲线的宽度,反应数据如何分布在总体均值周围

但是,在实验中,我们不可能去一一测量2400亿个细胞,总体数据几乎不可能拿到。
所以,我们几乎不计算总体均值,总体方差,总体标准差。
我们一般是用小样本来估计总体均值,方差,标准差。
但是,我们在做实验的时候,看到的只是一堆数据,比如这样:

我们可以很轻松的获得数据的均值

但是,难受的是,我们根本看不到曲线或者总体均值

这个时候就需要估计总体均值,

给出计算公式:


,代表从每个结果 x 中减去总体均值


反应在曲线上:


值会在μ的左右来回摆动,随着数据量的增多,无限接近μ
根据数据计算估计总体方差和标准差:

现在有了这些参数就可以画曲线了:

与开始利用2400亿总体数据绘制的曲线比对下,可以发现我们实验与真实分布离的并不远:

到目前为止,我们利用5个实验数据完成了估计总体数据,而且结果还不错,这样节省我我们大量的经历和时间。
致谢: