以身高为例,以学校为总体,假设学校51578人,会有5178个身高,这5178个身高如下表:
/*SAS生成代码示例 */
data random;
label i = "人员编号" x="身高测量值";
do i=1 to 5178;
x=rand('normal',165,10);output;
end;
run;
这5178个身高做成直方图:
用f(x)描述曲线,通常我们不关心当x取值为多少时f(x)的值,我们关心曲线下面积是多少。曲线下面积代表大于x这个值的可能性。
而我们在试验中,总不能把5178个人身高全部测量得到去回答这5178个人的身高均值和标准差是多少,故抽取一个样本量为20的样本来探究总体的身高和标准差是多少,抽取结果如下:
PROC SURVEYSELECT
data=random
method = SRS
out=random_2
n=20
seed =200;
run;
假设我们抽这一次得到的均值和标准差就是这5178个人的均值和标准差,那抽这一次的结果大概率会在**抽样分布**集中的地方。随之而来我们就研究**抽样的分布**性质:如果抽1000次样,我们抽样这一次的结果出现的概率是多少?如果概率低于0.05,那就是这次抽样是不太可能发生的。下面是在5178人的总体中,抽1000次样本,得到的1000个均值分布图。
在假设抽一次样本跟总体的值是相等的时候,如果我们抽样的均值是169或者比169更大,这种情况出现的概率仅为0.2%+0.3%+1.7%+4.3%=6.5%,这种情况出现的概率太低了,我们就认为我们的假设不对,所以我们拒绝刚才的假设,就得到了抽样跟总体不相等的结论。
/*抽1000个样本,每个样本求均值*/
%macro sum();
%do i=1 %to 1000;
PROC SURVEYSELECT data=random method = SRS out=out n=20; run;
proc sql;
create table sum_&i. as
select &i. as sample , sum(x)/20 as sum
from out;
quit;
%end;
data final;set sum_:;run;
proc sort;by sample;run;
%mend;
%sum();
proc datasets lib=work;delete sum:;run;
/*做抽样样本的直方图*/
proc univariate data=final;
histogram sum
/ normal ( mu = est sigma = est color = blue w = 2.5 )
barlabel=percent
midpoints = 140 to 190 by 1;
run;
身高这个变量称为随机变量:常用 X 表示,它的取值常用x 表示。
样本身高的均值和标准差:均值常用 \bar{x} 表示,标准差常用 S 表示。
总体身高的均值和标准差:均值常用 \mu 表示,标准差常用 \sigma 表示。
正态分布常用以下公式表示: f\left( x \right) =\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\left( x-\mu \right) ^2}{2\sigma ^2}},\;x\in \left( -\infty ,\;+\infty \right) ,随机变量 X 服从正态分布常记作:X\sim N\left( \mu ,\;\sigma ^2 \right)
统计推断之路从这里展开到以下几个方面:
正态分布、标准正态分布、t分布,几种分布均是随机变量经过变换而来,标准正态分布是正态分布经过 Z 变换,抽样分布是正态分布抽样而来,t分布是抽样分布经过t变换而来。
以上即为起点。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。