很多知识学习以后,只有实践用到的才会熟能生巧,其他知识就会抛之脑后渐渐忘记,等用时才知无处查找。感谢微信订阅号让我拥有这样一个平台,方便记录查阅的同时,也能把知识把正能量传播给其他人。后续会把之前学习到的东西慢慢补上来,一起来学习吧。
大数据学习很热,但大部分公司日常工作的运营统计分析近60%可以通过excel解决,所以学习大数据,先来搞定excel和统计学知识吧。
先分享下统计学的基本概念:
数据分析概念基础-统计学
(一)概念-总体、参数、样本、统计量、变量
总体:感兴趣的所有个人和物体的集合,分为有限总体和无限总体.
参数:描述整个总体某个特征的数值.
样本:从总体中选取的个人、物体或其他观测体的集合
统计量:描述样本某个特征的数值
变量:总体或样本中感兴趣的某个特征。每个个体的变量值称为数据值。变量的全部取值称为数据
举例说明:某人的籍贯、性别、发色等为定类变量;对于客户服务的满意度5个等级为定序变量;教学所用的书籍数目为离散变量;而教学所用的书籍重量为连续变量。
(二)用来表示样本数据离散程度的数值“样本方差、标准差、z分数、五数概括法”(基础知识 要理解哦!)
极差:H-L(样本数据中最大的数为H,最小的数为L)
样本平均数:
样本中位数:从小到大排列后,位于中间位置的数
中位数深度(假设数据共n个)
中位数计算:n为奇数,中位数是位于第位置处的数字;n为偶数,中位数是位于位置处左右两边数值相加求平均。
众数:出现次数最多的x的值,如果出现次数最多的不止一个数值,则没有众数。
中列数:
表示样本离散程度的度量有极差、方差和标准差等。
样本方差:
样本标准差s:
平方和SS(x):
五数概括法
用L,,H 五个数值表示数据分布的情况,可以用来画盒形图.
求第k个百分位数(或第一个四分位数/中位数
/第三个四分位数)
方法:计算,若结果A为整数,则A.5,则是第A个位置上的数值和下一个数的平均;若结果B有小数,则是下一个更大的数.
中四分位数:
四分位差:
标准分数(Z分数):是值x相对于平均数所处的位置,并以标准差的倍数来测量。通常z值近似到百分位数,取值在-23—+13
;再复习一下
经验法则:正态分布或土堆状分布大约68%的数据位于平均数左右1倍标准差的范围内,大约95%的数据位于平均数左右2倍标准差的范围内,大约99.7%的数据位于平均数左右3倍标准差的范围内.
对于不服从近似正态分布的情况,对于任何分布,服从下列定理,切比雪夫定理:所有分布中落入平均数两侧k倍标准差范围内的比例至少为(k是大于1的整数)
(三)线性回归分析--双变量x、y下的描述分析及数据展示:
线性相关:随着自变量x的增大,因变量y值表现出明确的走势,则两者是相关的。若y增大,是正相关;若y减小,是负相关;若无变化,则是不相关。若有序对(x,y)趋向于直线路径,则属于线性相关。
线性相关系数r:;r值总是位于-1∽+1间
平方和SS(x):
平方和SS(y):
平方和SS(xy):
x和y的关系为因果关系,但有些变量不在研究范畴,但它们却对结果产生影响,使变量呈现出相关性,因此这些被称为潜在变量。但不能由相关关系推断因果关系的存在。
回归分析:可以找到能够最好地描述两变量x和y之间关系的直线方程。这个方程的重要作用是预测。
最优拟合直线:假设是直线方程,用最小二乘准则找到系数和,使尽可能的小。那么这条直线即为最优拟合直线。最优拟合曲线总是穿过。
斜率
截距
(四)概率基础定义
经验概率;理论概率;
概率代表相对频数,经验概率是样本实验中事件A产生的次数除以实验总次数;理论概率P(A)是事件A可能出现的次数除以样本可能出现的实验次数总数。
大数定律:随着实验次数的增加,经验概率越接近于理论概率P(A)。
概率与几率:如果事件A发生的几率为a:b,则事件A不发生的几率为b:a,事件A发生的概率为,事件A不发生的概率为。
条件概率P(A︱B):已知B发生,A发生的概率。
互补事件:;事件A发生,则A的补集,表示为样本中不属于事件A的所有样本点的集合。
计算“A或B”的概率
P(A或B)= P(A)+P(B)-P(A并且B)
计算“A或B”的概率
P(A并且B)= P(A)・P(B︱A)
互斥事件:同一样本中,一个事件A的发生能排除另外一个事件B发生的可能性,则A和B互斥。
P(A并且B)=0;
P(A或B)= P(A)+P(B)
独立事件:如果一个事件A的发生(或不发生)的概率不受另一事件B是否发生的影响,则P(A)=P(A︱B)= P(A︱B不发生)
P(A并且B)= P(A)・P(B︱A)= P(A)・P(B)
第一次分享,研究了几天,结果败在公式和文字不匹配,看来以后要发整段的图片了,本来想要重新编辑再来一次。但转念一想,追求完美是正确的,但在不影响正确率的情况下速度也同样重要。待我慢慢改进,第1次的不完美或许还有第2次、第3次.....这些正是我前进的见证。
领取专属 10元无门槛券
私享最新 技术干货