入职腾讯以来,一直在腾讯微信广告团队负责用户画像,听起来很高大上,但并未涉及到画像的挖掘,只是主要负责在工程上铺设画像数据的更新通道,对画像的理解和挖掘都处于非常浅显的阶段。而在我看来,微信数据是一座价值连城的金矿,无法利用自身能力充分发挥数据价值,实在是让人痛心疾首,扼腕叹息。经过长时间的了解和思考,下定决心从后台开发转战数据科学,在微信广告的大平台上,挑战自己,快速成长,力争一年扛起业务,三年成为领域专家。
数据科学是一个非常复杂的研究领域,最主要的是要具备数据科学的思考方式,以在用户画像团队参与的定向推荐为例,在定向推荐这个非常好的应用场景下,团队仍在用工程的思维来解决问题,第一个版本更是靠产品拍脑袋来驱动,实在是一大败笔。在急需提高的数据思考方式下,更需要工程能力和数学基础的支撑:在腾讯内部,目前主流的大数据处理平台为Spark,工程能力需要不断深入对Spark大数据框架的理解,同时不断扩宽自己的视野,对业界正在兴起的flink等新技术保持关注;而在数学基础方面,没有捷径可走,必须把当年丢掉的,没有学好的数学基础一点点补起来,尽管很艰难很困难,是个不小的挑战;而在有了意识和基础之后,就必须要深入理解产品,在复杂的业务场景下,不断提高自己解决问题的能力。
本篇是写在开始填补数据基础伊始,为了快速从整体上把握数理统计所覆盖的内容,同时了解目前自己在数据科学上的认知水平,先用几天时间通读了《程序员的数学-概率统计篇》,因为是通读,并未涉及较深的数学知识,先摸摸底,再咬牙补。
第一章 概率空间的三要素
概率空间的三要素(Ω,F,P),集合Ω是所有可能结果的集合,F是由一些Ω子集构成的集合,F中的元素称为事件,P是一个集合的函数,它的自变量是集合,P实际上就是我们所说的概率。
第二章 多个随机变量之间的关系
联合概率:
条件概率:
贝叶斯公式:
随机变量独立性:如果
则说明两个随机变量独立
第三章 离散值的概率分布
二项分布:
期望:
方差:
标准差:
引入标准差主要是为了更为直观的表述分散程度
大数定理:大数定理的直观解释是随机变量的个数n无限增加时,这些随机变量的平均值逐渐趋近于真实平均值
大数定理的数学解释:对于n个随机变量,
Z=,
Z的平均值仍为E[X],但是方差
由此可见,n值越大,方差越小,n趋于无穷大时,方差为0,即Z期望值趋于E[X]。
最小二乘法:使平方误差
最小的算法,是一种最为简单的误差监测方法,在机器学习线性模型中有应用。
第四章 连续值的概率分布
连续值引入了微积分,思想和离线分布完全一致
概率密度:
,
条件概率:
贝叶斯公式:
独立性:如果
则说明两个随机变量独立
期望:
方差和标准差和离线分布一致
正态分布和中心极限定理:正态分布的核心是高斯积分
正态分布的价值在于简化计算,同时现实中很多结果遵从正态分布。
中心极限定理:同样是n个随机变量,构建
(为啥要这么处理,因为要收敛),当n趋近于无穷大时,其符合正态分布,而无论X是什么分布(这里的数学证明暂时略去)。
一言以蔽之,大数定理负责提供期望,中心极限定理负责提供偏离程度(方差)。
第五章 协方差矩阵
协方差矩阵在机器学习中广泛应用,用于考量随机变量之间的相关性。
协方差定义:
方差是协方差的一种特例,及X=Y时,即为方差。
相关系数:
用于标识两个随机变量之间的关系。
请注意,协方差和相关系数是有局限性的,两个随机变量之间无关联是相关系数为0的充分而不必要条件。
协方差矩阵:
其中X为n个随机变量组成的向量。
任意方向的发散程度:
借由此式可以考量协方差矩阵在任意方向的发散程度。
数据的协方差矩阵与标准数据(圆)的线性变换有直接的关系。此线性变换完全由数据的特征向量和特征值确定。而特征向量表示旋转矩阵,特征值对应于每个维度上缩放因子的平方(暂时略去数学推导)。
第六章 假设检验
最小方差无偏估计:
值得注意的是,分母是n-1,而不是n,主要为了保证估计的无偏性。
极大似然估计:极大似然估计背后的原理比较朴素,当前出现的就是概率最大的,即给定当前的测量值,使其概率最大化,求出参数即可。
贝叶斯估计:极大似然估计严重依赖采样值,而贝叶斯估计则须考虑先验概率,贝叶斯公式是在描述你有多大把握能相信一件证据(条件概率),而贝叶斯估计是想求θ使P(Xθ)P(θ)最大,求得的θ不单单让似然函数大,θ自己出现的先验概率也得大。贝叶斯估计一个问题是要先有先验概率P(θ),而这个概率在某些情况下很难事先准确给定的。
检验理论:检验理论的思想基础是有虚无假设(试图驳斥的主张)和对立假设(试图肯定的假设),思路是,如果虚无假设成立,那么对立假设成立的概率很低很低,所以虚无假设很可能是错的。
最后这本书还阐述了一些概率统计的应用,包含伪随机数的生成,回归分析(举了线性回归的例子),PCA(机器学习常用,用于减少特征数量),随即过程中的随机游走和马尔可夫链(追忆学校的随即过程随机过),信息论(表征信息量,信道编码)。
利用一周工作之余时间,通读了这本书,大致回顾了下这门科学所覆盖的内容,这次通读略去了大量的数学推导,在后续的学习中,应该扎实的夯实基本数据功底(把毕业扔掉的数学教材又买了回来),为机器学习学习提供扎实的基础支撑。
领取专属 10元无门槛券
私享最新 技术干货