首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

统计学基础(1)

很多知识学习以后,只有实践用到的才会熟能生巧,其他知识就会抛之脑后渐渐忘记,等用时才知无处查找。感谢微信订阅号让我拥有这样一个平台,方便记录查阅的同时,也能把知识把正能量传播给其他人。后续会把之前学习到的东西慢慢补上来,一起来学习吧。

大数据学习很热,但大部分公司日常工作的运营统计分析近60%可以通过excel解决,所以学习大数据,先来搞定excel和统计学知识吧。

先分享下统计学的基本概念:

数据分析概念基础-统计学

(一)概念-总体、参数、样本、统计量、变量

总体:感兴趣的所有个人和物体的集合,分为有限总体和无限总体.

参数:描述整个总体某个特征的数值.

样本:从总体中选取的个人、物体或其他观测体的集合

统计量:描述样本某个特征的数值

变量:总体或样本中感兴趣的某个特征。每个个体的变量值称为数据值。变量的全部取值称为数据

举例说明:某人的籍贯、性别、发色等为定类变量;对于客户服务的满意度5个等级为定序变量;教学所用的书籍数目为离散变量;而教学所用的书籍重量为连续变量。

(二)用来表示样本数据离散程度的数值“样本方差、标准差、z分数、五数概括法”(基础知识 要理解哦!)

极差:H-L(样本数据中最大的数为H,最小的数为L)

样本平均数:

样本中位数:从小到大排列后,位于中间位置的数

中位数深度(假设数据共n个)

中位数计算:n为奇数,中位数是位于第位置处的数字;n为偶数,中位数是位于位置处左右两边数值相加求平均。

众数:出现次数最多的x的值,如果出现次数最多的不止一个数值,则没有众数。

中列数:

表示样本离散程度的度量有极差、方差和标准差等。

样本方差:

样本标准差s:

平方和SS(x):

五数概括法

用L,,H 五个数值表示数据分布的情况,可以用来画盒形图.

求第k个百分位数(或第一个四分位数/中位数

/第三个四分位数)

方法:计算,若结果A为整数,则A.5,则是第A个位置上的数值和下一个数的平均;若结果B有小数,则是下一个更大的数.

中四分位数:

四分位差:

标准分数(Z分数):是值x相对于平均数所处的位置,并以标准差的倍数来测量。通常z值近似到百分位数,取值在-23—+13

;再复习一下

经验法则:正态分布或土堆状分布大约68%的数据位于平均数左右1倍标准差的范围内,大约95%的数据位于平均数左右2倍标准差的范围内,大约99.7%的数据位于平均数左右3倍标准差的范围内.

对于不服从近似正态分布的情况,对于任何分布,服从下列定理,切比雪夫定理:所有分布中落入平均数两侧k倍标准差范围内的比例至少为(k是大于1的整数)

(三)线性回归分析--双变量x、y下的描述分析及数据展示:

线性相关:随着自变量x的增大,因变量y值表现出明确的走势,则两者是相关的。若y增大,是正相关;若y减小,是负相关;若无变化,则是不相关。若有序对(x,y)趋向于直线路径,则属于线性相关。

线性相关系数r:;r值总是位于-1∽+1间

平方和SS(x):

平方和SS(y):

平方和SS(xy):

x和y的关系为因果关系,但有些变量不在研究范畴,但它们却对结果产生影响,使变量呈现出相关性,因此这些被称为潜在变量。但不能由相关关系推断因果关系的存在。

回归分析:可以找到能够最好地描述两变量x和y之间关系的直线方程。这个方程的重要作用是预测。

最优拟合直线:假设是直线方程,用最小二乘准则找到系数和,使尽可能的小。那么这条直线即为最优拟合直线。最优拟合曲线总是穿过。

斜率

截距

(四)概率基础定义

经验概率;理论概率;

概率代表相对频数,经验概率是样本实验中事件A产生的次数除以实验总次数;理论概率P(A)是事件A可能出现的次数除以样本可能出现的实验次数总数。

大数定律:随着实验次数的增加,经验概率越接近于理论概率P(A)。

概率与几率:如果事件A发生的几率为a:b,则事件A不发生的几率为b:a,事件A发生的概率为,事件A不发生的概率为。

条件概率P(A︱B):已知B发生,A发生的概率。

互补事件:;事件A发生,则A的补集,表示为样本中不属于事件A的所有样本点的集合。

计算“A或B”的概率

P(A或B)= P(A)+P(B)-P(A并且B)

计算“A或B”的概率

P(A并且B)= P(A)・P(B︱A)

互斥事件:同一样本中,一个事件A的发生能排除另外一个事件B发生的可能性,则A和B互斥。

P(A并且B)=0;

P(A或B)= P(A)+P(B)

独立事件:如果一个事件A的发生(或不发生)的概率不受另一事件B是否发生的影响,则P(A)=P(A︱B)= P(A︱B不发生)

P(A并且B)= P(A)・P(B︱A)= P(A)・P(B)

第一次分享,研究了几天,结果败在公式和文字不匹配,看来以后要发整段的图片了,本来想要重新编辑再来一次。但转念一想,追求完美是正确的,但在不影响正确率的情况下速度也同样重要。待我慢慢改进,第1次的不完美或许还有第2次、第3次.....这些正是我前进的见证。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171225G0J6NK00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券