Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >浅谈协方差矩阵

浅谈协方差矩阵

作者头像
bear_fish
发布于 2018-09-19 03:59:40
发布于 2018-09-19 03:59:40
4K0
举报

一、统计学的基本概念

统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述:

均值:

标准差:

方差:

均值描述的是样本集合的中间点,它告诉我们的信息是有限的,而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。

以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],两个集合的均值都是10,但显然两个集合的差别是很大的,计算两者的标准差,前者是8.3后者是1.8,显然后者较为集中,故其标准差小一些,标准差描述的就是这种“散布度”。之所以除以n-1而不是n,是因为这样能使我们以较小的样本集更好地逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。

二、为什么需要协方差

标准差和方差一般是用来描述一维数据的,但现实生活中我们常常会遇到含有多维数据的数据集,最简单的是大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多,比如,一个男孩子的猥琐程度跟他受女孩子的欢迎程度是否存在一些联系。协方差就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义:

来度量各个维度偏离其均值的程度,协方差可以这样来定义:

协方差的结果有什么意义呢?如果结果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),也就是说一个人越猥琐越受女孩欢迎。如果结果为负值, 就说明两者是负相关,越猥琐女孩子越讨厌。如果为0,则两者之间没有关系,猥琐不猥琐和女孩子喜不喜欢之间没有关联,就是统计上说的“相互独立”。

从协方差的定义上我们也可以看出一些显而易见的性质,如:

三、协方差矩阵

前面提到的猥琐和受欢迎的问题是典型的二维问题,而协方差也只能处理二维问题,那维数多了自然就需要计算多个协方差,比如n维的数据集就需要计算

个协方差,那自然而然我们会想到使用矩阵来组织这些数据。给出协方差矩阵的定义:

这个定义还是很容易理解的,我们可以举一个三维的例子,假设数据集有三个维度,则协方差矩阵为:

可见,协方差矩阵是一个对称的矩阵,而且对角线是各个维度的方差。

四、Matlab协方差实战

必须要明确一点,协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的。以下的演示将使用Matlab,为了说明计算原理,不直接调用Matlab的cov函数:

首先,随机生成一个10*3维的整数矩阵作为样本集,10为样本的个数,3为样本的维数。

图 1 使用Matlab生成样本集

根据公式,计算协方差需要计算均值,前面特别强调了,协方差矩阵是计算不同维度之间的协方差,要时刻牢记这一点。样本矩阵的每行是一个样本,每列是一个维度,因此我们要按列计算均值。为了描述方便,我们先将三个维度的数据分别赋值:

图 2 将三个维度的数据分别赋值

计算dim1与dim2,dim1与dim3,dim2与dim3的协方差:

图 3 计算三个协方差

协方差矩阵的对角线上的元素就是各个维度的方差,下面我们依次计算这些方差:

图 4 计算对角线上的方差

这样,我们就得到了计算协方差矩阵所需要的所有数据,可以调用Matlab的cov函数直接得到协方差矩阵:

图 5 使用Matlab的cov函数直接计算样本的协方差矩阵

计算的结果,和之前的数据填入矩阵后的结果完全相同。

五、总结

理解协方差矩阵的关键就在于牢记它的计算是不同维度之间的协方差,而不是不同样本之间。拿到一个样本矩阵,最先要明确的就是一行是一个样本还是一个维度,心中明确整个计算过程就会顺流而下,这么一来就不会迷茫了。

原文地址:

http://pinkyjie.com/2010/08/31/covariance/

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017年04月03日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
方差、协方差、协方差矩阵的概念及意义 的理解
想想大学时候,我们学习数学的目的也就是为了考试,从来没有想过它们能解决什么实际问题。但是现在想想,我们真是错了。数学其实就是来自生活。
锦小年
2019/05/29
3.9K0
pca
混乱的数据中通常包含三种成分:噪音、旋转和冗余。在区分噪音的时候,可以使用信噪比或者方差来衡量,方差大的是主要信号或者主要分量;方差较小的则认为是噪音或者次要分量;对于旋转,则对基向量进行旋转,使得信噪比或者方差较大的基向量就是主元方向;在判断各个观测变量之间是否冗余时,可以借助协方差矩阵来进行衡量和判断。
pydata
2018/08/02
8450
pca
协方差矩阵
均值描述的是样本集合的中间点,它告诉我们的信息是有限的;而方差给我们描述的是样本集合的各个样本点到均值之间的平均距离。
繁依Fanyi
2023/05/07
4180
协方差矩阵
详解马氏距离中的协方差矩阵计算(超详细)
2.样本方差 方差(Variance)是度量一组数据的离散(波动)程度。方差是各个样本与样本均值的差的平方和的均值,分母除以n-1是为了满足无偏估计:
全栈程序员站长
2022/09/13
3.3K0
详解马氏距离中的协方差矩阵计算(超详细)
方差、标准差、协方差
方差(Variance)是各个数据与平均数之差的平方的平均数,用来度量随机变量与其数学期望之间的偏离程度。
yangzelong
2019/04/09
6.7K0
方差、标准差、协方差
教程 | 从特征分解到协方差矩阵:详细剖析和实现PCA算法
选自deeplearning4j 机器之心编译 参与:蒋思源 本文先简要明了地介绍了特征向量和其与矩阵的关系,然后再以其为基础解释协方差矩阵和主成分分析法的基本概念,最后我们结合协方差矩阵和主成分分析法实现数据降维。本文不仅仅是从理论上阐述各种重要概念,同时最后还一步步使用 Python 实现数据降维。 首先本文的特征向量是数学概念上的特征向量,并不是指由输入特征值所组成的向量。数学上,线性变换的特征向量是一个非简并的向量,其方向在该变换下不变。该向量在此变换下缩放的比例称为特征值。一个线性变换通常可以由其
机器之心
2018/05/09
4.8K0
教程 | 从特征分解到协方差矩阵:详细剖析和实现PCA算法
转录组表达矩阵为什么需要主成分分析以及怎么做
我们阅读量破万的综述:RNA-seq这十年(3万字长文综述)给粉丝朋友们带来了很多理解上的挑战:
生信技能树
2019/08/13
8.5K0
《机器学习实战》(十三)—— PCA
http://blog.csdn.net/u011239443/article/details/77363466
小爷毛毛_卓寿杰
2019/02/13
5380
《机器学习实战》(十三)—— PCA
使用NumPy介绍期望值,方差和协方差
AiTechYun 编辑:yuxiangyu 基础统计是应用机器学习中的有力工具,它可以更好地理解数据。而且,它也为更先进的线性代数运算和机器学习方法奠定了基础的工具,例如分别协方差矩阵和主成分分析(PCA)。因此,掌握线性代数中基础的统计非常重要。 在本教程中,你会了解基础的统计操作及其原理,和如何使用NumPy实现线性代数的符号和术语。 完成本教程后,你将知道: 期望值,平均数(average)和平均值(mean)是什么,以及如何计算它们。 方差和标准差是多少以及如何计算它们。 协方差,相关性和协方差矩
AiTechYun
2018/03/27
5.6K0
使用NumPy介绍期望值,方差和协方差
协方差矩阵-在离散中求“聚合”
方差是均值之上的产物,然后协方差又比方差更近一步,然后带个矩阵的话,可以说明很多变量的关系。
云深无际
2024/11/25
1270
协方差矩阵-在离散中求“聚合”
[吴恩达机器学习笔记]14降维3-4PCA算法原理
上式的 U 是一个具有与数据之间最小投射误差的方向向量构成的矩阵 。如果我们希望 将数据从 N 维降至 K 维 ,我们只需要从 U 中选取前 K 个向量即上图中的
演化计算与人工智能
2020/08/14
6570
[吴恩达机器学习笔记]14降维3-4PCA算法原理
算法金 | 协方差、方差、标准差、协方差矩阵
方差是统计学中用来度量一组数据分散程度的重要指标。它反映了数据点与其均值之间的偏离程度。在数据分析和机器学习中,方差常用于描述数据集的变异情况
算法金
2024/06/29
2970
算法金 | 协方差、方差、标准差、协方差矩阵
主成分分析降维(MNIST数据集)
今天看了用主成分分析简化数据,就顺便用MNIST数据集做了下实验,想直观地看一下效果,并通过完成这个小demo深入理解下原理。 我发现“是什么、能做什么、怎么用、效果是什么、原理是什么、优缺点是什么”这样的思路能让我更好地接受一个新知识,之所以把原理放在效果后面,是因为我比较喜欢先看看它的作用,可视化意义之后能提起我对一个知识的兴趣,加深对它意义的理解,后面看数学原理会容易,所以整篇文章就以这样的思路组织整理。 主成分分析是什么 主成分分析(Principal Component Analysis,PCA
刘开心_1266679
2018/04/17
1.8K0
主成分分析降维(MNIST数据集)
概率论基础 - 4 - 协方差、相关系数、协方差矩阵
本文介绍协方差。 协方差 协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。 —— 百度百科 定义 在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。 期望值分别为E[X
为为为什么
2022/08/05
1.4K0
概率论基础 - 4 - 协方差、相关系数、协方差矩阵
在机器学习中用到了各式各样的距离
作者:shiwei408 来源:http://blog.csdn.net/shiwei408/article/details/7602324 本文目录: 1.欧氏距离 2.曼哈顿距离 3. 切比雪夫距离 4. 闵可夫斯基距离 5.标准化欧氏距离 6.马氏距离 7.夹角余弦 8.汉明距离 9.杰卡德距离& 杰卡德相似系数 10.相关系数& 相关距离 11.信息熵 1. 欧氏距离(EuclideanDistance) 欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。 (1)
智能算法
2018/04/02
1.1K0
在机器学习中用到了各式各样的距离
概率论协方差_均值方差协方差公式
  方差的代数意义很简单,两个数的方差就是两个数差值的平方,作为衡量实际问题的数字特征,方差有代表了问题的波动性。
全栈程序员站长
2022/09/20
1.3K0
马氏距离 (马哈拉诺比斯距离) (Mahalanobis distance)
马氏距离(Mahalanobis distance)是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示点与一个分布之间的距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是,它考虑到各种特性之间的联系,本文介绍马氏距离相关内容。 欧氏距离的缺点 距离度量在各个学科中有着广泛用途,当数据表示为向量\overrightarrow{\mathbf{x} }=\left(x_{1}, x_{2}, \cdots, x_{n}\right)^{T}和\overr
为为为什么
2022/08/05
2.1K0
马氏距离 (马哈拉诺比斯距离) (Mahalanobis distance)
协方差矩阵计算实例「建议收藏」
突然发现给一组数据去实际计算对应得协方差矩阵,让人有点懵,并未找到太清楚的讲解,这里举一个实例记录一下。
全栈程序员站长
2022/09/13
2K0
协方差矩阵计算实例「建议收藏」
主成分分析降维(MNIST数据集)
今天看了用主成分分析简化数据,就顺便用MNIST数据集做了下实验,想直观地看一下效果,并通过完成这个小demo深入理解下原理。 我发现“是什么、能做什么、怎么用、效果是什么、原理是什么、优缺点是什么”这样的思路能让我更好地接受一个新知识,之所以把原理放在效果后面,是因为我比较喜欢先看看它的作用,可视化意义之后能提起我对一个知识的兴趣,加深对它意义的理解,后面看数学原理会容易,所以整篇文章就以这样的思路组织整理。 主成分分析是什么 主成分分析(Principal Component Analysis,PCA)
用户1332428
2018/03/09
1.4K0
主成分分析降维(MNIST数据集)
使用Python计算方差协方差相关系数
设随机变量X只取有限个可能值a_i (i=0, 1, ..., m),其概率分布为P (X = a_i) = p_i. 则X的数学期望,记为E(X)或EX,定义为:
卡尔曼和玻尔兹曼谁曼
2019/01/22
5.8K0
相关推荐
方差、协方差、协方差矩阵的概念及意义 的理解
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档