描述统计是研究
数据的可靠性和有效性
数据是否可靠(reliable)和有效(valid)?
分类变量特征和可视化
无序分类变量
性别(名目;=,≠):男,女
观测12个新生儿的性别(n=12),结果为:女,男,女,女,男,男,男,男,女,男,男,女
频率表(frequency table)
性别 | 频数(Count) | 频率(Frequency) |
---|---|---|
女 | 5 | 5/12=41.7% |
男 | 7 | 7/12=58.3% |
条形图(bar plot)
集中趋势(central tendency):一组观测值向其中心集中的倾向和程度,对于无序分类来说只有一种
众数(mode):一组观测值中出现次数最多的数
但一组观测值中可能存在多个众数,也可能不存在众数,比如颜色:赤1,橙1,黄1,绿1,青1,蓝1,紫1,此时不存在众数