Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >浅谈协方差矩阵

浅谈协方差矩阵

作者头像
bear_fish
发布于 2018-09-19 03:59:40
发布于 2018-09-19 03:59:40
4K0
举报

一、统计学的基本概念

统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述:

均值:

标准差:

方差:

均值描述的是样本集合的中间点,它告诉我们的信息是有限的,而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。

以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],两个集合的均值都是10,但显然两个集合的差别是很大的,计算两者的标准差,前者是8.3后者是1.8,显然后者较为集中,故其标准差小一些,标准差描述的就是这种“散布度”。之所以除以n-1而不是n,是因为这样能使我们以较小的样本集更好地逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。

二、为什么需要协方差

标准差和方差一般是用来描述一维数据的,但现实生活中我们常常会遇到含有多维数据的数据集,最简单的是大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多,比如,一个男孩子的猥琐程度跟他受女孩子的欢迎程度是否存在一些联系。协方差就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义:

来度量各个维度偏离其均值的程度,协方差可以这样来定义:

协方差的结果有什么意义呢?如果结果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),也就是说一个人越猥琐越受女孩欢迎。如果结果为负值, 就说明两者是负相关,越猥琐女孩子越讨厌。如果为0,则两者之间没有关系,猥琐不猥琐和女孩子喜不喜欢之间没有关联,就是统计上说的“相互独立”。

从协方差的定义上我们也可以看出一些显而易见的性质,如:

三、协方差矩阵

前面提到的猥琐和受欢迎的问题是典型的二维问题,而协方差也只能处理二维问题,那维数多了自然就需要计算多个协方差,比如n维的数据集就需要计算

个协方差,那自然而然我们会想到使用矩阵来组织这些数据。给出协方差矩阵的定义:

这个定义还是很容易理解的,我们可以举一个三维的例子,假设数据集有三个维度,则协方差矩阵为:

可见,协方差矩阵是一个对称的矩阵,而且对角线是各个维度的方差。

四、Matlab协方差实战

必须要明确一点,协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的。以下的演示将使用Matlab,为了说明计算原理,不直接调用Matlab的cov函数:

首先,随机生成一个10*3维的整数矩阵作为样本集,10为样本的个数,3为样本的维数。

图 1 使用Matlab生成样本集

根据公式,计算协方差需要计算均值,前面特别强调了,协方差矩阵是计算不同维度之间的协方差,要时刻牢记这一点。样本矩阵的每行是一个样本,每列是一个维度,因此我们要按列计算均值。为了描述方便,我们先将三个维度的数据分别赋值:

图 2 将三个维度的数据分别赋值

计算dim1与dim2,dim1与dim3,dim2与dim3的协方差:

图 3 计算三个协方差

协方差矩阵的对角线上的元素就是各个维度的方差,下面我们依次计算这些方差:

图 4 计算对角线上的方差

这样,我们就得到了计算协方差矩阵所需要的所有数据,可以调用Matlab的cov函数直接得到协方差矩阵:

图 5 使用Matlab的cov函数直接计算样本的协方差矩阵

计算的结果,和之前的数据填入矩阵后的结果完全相同。

五、总结

理解协方差矩阵的关键就在于牢记它的计算是不同维度之间的协方差,而不是不同样本之间。拿到一个样本矩阵,最先要明确的就是一行是一个样本还是一个维度,心中明确整个计算过程就会顺流而下,这么一来就不会迷茫了。

原文地址:

http://pinkyjie.com/2010/08/31/covariance/

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017年04月03日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
从excel文件xlsx中特定单元格中提取图片「建议收藏」
第一种网上通用的用xlsx改zip压缩包,能批量提取出图片。但是无法知道图片在单元格中的顺序信息。
全栈程序员站长
2022/09/14
6.6K0
NatGenet | 细胞注释新工具,使用 popV 在单细胞数据中进行细胞类型标签的共识预测
[ol]- 1. retrain—it trains all methods from scratch and stores the classifier to reuse them on other datasets. This hugely benefits from a GPU to train the scVI and scANVI algorithms as well as the OnClass algorithm. - 2. inference—it uses pretrained methods to classify query and reference cells; computes a joint UMAP embedding of query and reference cells and by default uses all eight methods; and trains scVI and scANVI models for 20 epochs using scArches query embedding19. - 3. fast—it uses pretrained methods to classify only query cells; computes a UMAP embedding of query cells if enabled; skips Scanorama and BBKNN data integration as those recompute an embedding instead of projecting cells into an existing embedding; and trains scVI and scANVI models for 1 epoch using scArches query embedding.
生信菜鸟团
2024/12/20
3340
NatGenet | 细胞注释新工具,使用 popV 在单细胞数据中进行细胞类型标签的共识预测
细胞图谱 | Nature 的人类细胞图谱基础模型,SCimilarity 框架
◉ 左图,查询细胞谱系与来自412项研究的2340万份参考基础模型进行比较。◉ 中间图,识别出具有相似细胞的样本,并返回有关原始样本条件的信息,包括组织、体外或疾病背景。◉ 右图,在组织样本中的每个细胞与查询细胞之间计算SCimilarity得分。◉ b, 三元组损失训练。◉ 左图,使用来自全身的56个训练集和15个测试集以及Cell Ontology注释作为输入。◉ 中间图,根据Cell Ontology注释抽取细胞三元组,每个三元组包含一个锚定细胞(A),一个正细胞(P,与锚定细胞相似)和一个负细胞(N,与锚定细胞不同)。◉ 仅允许无歧义的关系。◉ 右图,三元组用于训练神经网络,该网络将相似细胞嵌入到比不相似细胞更近的位置,形成基础模型。◉ Treg,调节性T细胞。◉ 损失函数通过细胞三元组、重构的锚定细胞谱系(Â)和加权参数(β)来计算,以平衡三元组损失(Ltriplet)和均方误差损失(LMSE)。
生信菜鸟团
2025/03/06
1180
细胞图谱 | Nature 的人类细胞图谱基础模型,SCimilarity 框架
资源 | 人类生物分子图谱计划(HuBMAP):3D人体参考图谱的构建与使用
◉ ASCT+B表格文件记录了器官的嵌套‘part_of’结构(例如,构成肾单位的细胞、逐步更大的解剖结构、整个器官如肾脏,肾脏是身体的一部分)。◉ 构成(位于)每个解剖结构的细胞在多层次的细胞类型分类学中组织起来,以‘细胞’为根节点,并且具有越来越专业的子节点和节点之间的‘is_a’关系。◉ 用于表征细胞类型的生物标记物可能有五种类型:基因、蛋白质、代谢物、蛋白质形式和脂质,它们被组织在一个生物标记物分类学中。◉ 灰色箭头表示交叉引用,连接其他HRA DO到ASCT+B表格。◉ HRA 3D参考对象代表1,192个3D解剖结构的形状、大小、位置和旋转,这些结构拥有516个独特的Uberon ID,涉及65个器官,并与ASCT+B表格存在交叉引用。◉ 显示的是肾脏中的‘肾乳头’和‘肾锥体’。◉ 2D参考图示记录了22个肾单位中的10个器官的3,742个2D细胞的形状、大小和空间布局,共有116种类型,并且与ASCT+B表格存在交叉引用。◉ 显示的是肾脏的肾小球。◉ 对于五个器官中的肾单位存在带交叉引用(灰色箭头)的标记训练数据,这些数据指向ASCT+B表格中的解剖结构和细胞类型。◉ 13个OMAP链接到197个AVR,并且存在与ASCT+B表格中的细胞类型和生物标记物的交叉引用。◉ 十个Azimuth参考针对健康成年器官,并且与ASCT+B表格中的细胞类型和生物标记物存在交叉引用。◉ HRApop报告从实验数据中收集的解剖结构的细胞类型群体。◉ 例如,显示女性心脏的左心房(蓝色)和室间隔(橙色),以及一个条形图,该条形图显示在这两个解剖结构中百分比最高的细胞类型(用Azimuth注释)。◉ 请注意,某些细胞类型仅出现在一个解剖结构中。◉ HRAlit数据库将HRA DO链接到现有的本体(例如,Uberon和CL)、专家ORCID、出版物证据、资金和用于HRApop计算的实验数据。
生信菜鸟团
2025/04/11
1390
资源 | 人类生物分子图谱计划(HuBMAP):3D人体参考图谱的构建与使用
单细胞测序最好的教程(六):细胞类型注释
作者按 本教程将是本系列教程中最重要的一章,我们后续所有的单细胞分析,都要基于准确的细胞类型注释。本系列教程首发于“[单细胞最好的中文教程](single_cell_tutorial Readthedocs[1])”,未经授权许可,禁止转载。 全文字数|预计阅读时间: 4500|5min ——Starlitnightly
生信菜鸟团
2023/08/23
1.6K0
单细胞测序最好的教程(六):细胞类型注释
提供180Mb的细胞图谱代码,Nature发的一个时间序列空间多组学细胞参考图谱研究
生信菜鸟团
2024/12/05
2010
提供180Mb的细胞图谱代码,Nature发的一个时间序列空间多组学细胞参考图谱研究
单细胞亚群合理命名是数据分析基石啊
其实这样的笑话在单细胞数据挖掘文章里面层出不穷,比如另外一个数据挖掘文章;《Identification of Five Hub Genes Based on Single-Cell RNA Sequencing Data and Network Pharmacology in Patients With Acute Myocardial Infarction》,链接是:https://www.frontiersin.org/articles/10.3389/fpubh.2022.894129/full ,里面的bug就更可怕了,居然是把成纤维细胞错误的命名成为了单核细胞。如下所示:
生信技能树
2024/06/08
2220
单细胞亚群合理命名是数据分析基石啊
Nature | 代码值得学习!发现RNA剪接异常产生的新一类“公共新抗原”,公共数据挖掘
◉ TCGA RNA-seq 数据在胶质母细胞瘤 (GBM,n = 167 个样本)、低级别胶质瘤 (LGG,n = 516)、肺腺癌 (LUAD,n = 517)、肺鳞状细胞癌 (LUSC,n = 501)、间皮瘤 (MESO,n = 516)、肝细胞癌 (LIHC,n = 371)、胃腺癌 (STAD,n = 415)、皮肤黑色素瘤 (SKCM,n = 470)、肾乳头状细胞癌 (KIRP,n = 290)、肾嫌色细胞癌 (KICH,n = 66)、结肠腺癌 (COAD,n = 458) 和前列腺腺癌 (PRAD,n = 497) 中进行了分析。◉ 选取肿瘤纯度 ≥60% 的样本(实心颜色)进行分析,由于缺乏纯度数据,排除了 MESO 和 STAD 样本。◉ 对患者间的 NJ 频率 (PSR) 进行了分析,其中公共 NJ 被定义为 PSR ≥10%(红线)。◉ 按肿瘤类型统计了每例样本中检测到的公共 NJ 的总数(d)和 log2[读段频率](e)(COAD,n = 265;GBM,n = 391;KICH,n = 773;KIRP,n = 247;LGG,n = 327;LIHC,n = 173;LUAD,n = 175;LUSC,n = 555;MESO,n = 277;PRAD,n = 245;SKCM,n = 353;STAD,n = 1,433)。◉ 根据剪接类型对公共 NJ 进行分类:3′ 或 5′ 剪接位点的外显子丢失 (A3 或 A5 丢失 (A3−; A5−))、3′ 或 5′ 剪接位点的内含子获得 (A3 或 A5 获得 (A3+; A5+))、外显子跳跃 (ES)、外显子内的连接、内含子内的连接和其他类型(f),以及框移 (FS) 状态(g);IF 表示同框。◉ 所有泛癌症范围的 NJ 在所有研究的 TCGA 肿瘤类型中的表达情况(log2[每百万计数 (CPM)])。◉ 更多的统计细节见补充表 3。图 a 使用 BioRender 创建(致谢:D.W.K.,https://BioRender.com/k09l557;2024 年)。
生信菜鸟团
2025/03/21
2030
Nature | 代码值得学习!发现RNA剪接异常产生的新一类“公共新抗原”,公共数据挖掘
5.2 基于ROP漏洞挖掘与利用
通常情况下栈溢出可能造成的后果有两种,一类是本地提权另一类则是远程执行任意命令,通常C/C++并没有提供智能化检查用户输入是否合法的功能,同时程序编写人员在编写代码时也很难始终检查栈是否会发生溢出,这就给恶意代码的溢出提供了的条件,利用溢出攻击者可以控制程序的执行流,从而控制程序的执行过程并实施恶意行为,本章内容笔者通过自行编写了一个基于网络的FTP服务器,并特意布置了特定的漏洞,通过本章的学习,读者能够掌握漏洞挖掘的具体流程,及利用方式,让读者能够亲自体会漏洞挖掘与利用的神奇魔法。
王瑞MVP
2023/07/12
4821
5.2 基于ROP漏洞挖掘与利用
富集分析常见类型
前期主要是以医学统计和临床预测模型为主,关于生信挖掘和机器学习的内容偏少,所以后面会逐渐增加这方面的内容,除了常见的生信分析外,还会涉及一些SCI图表学习等内容。
医学和生信笔记
2023/08/30
1.1K0
富集分析常见类型
细胞图谱 | Nature | 人类胚胎骨骼发育的多组学图谱
生信菜鸟团
2024/12/27
2540
细胞图谱 | Nature | 人类胚胎骨骼发育的多组学图谱
人生苦短,我用Python-手把手教你如何使用python写串口调试助手
  笔者这里使用的是QTCreator和Python来实现一个简单的串口上位机的开发的简单过程,使用到Python,之前记录的Qt 使用C++ 写上位机也记录一篇文章,大家感兴趣的话可以看看。从零开始编写一个上位机(串口助手)QT Creator + C++
用户8913398
2023/03/05
6.5K0
人生苦短,我用Python-手把手教你如何使用python写串口调试助手
hbase的预region分区 脚本 经典 转
Region是表获取和分布的基本元素,由每个列族的一个Store组成。对象层级图如下:
stys35
2019/03/05
2K0
Cell:对亚细胞蛋白质组进行全局表征,发现许多蛋白质是通过其空间分布的变化而非丰度变化来调节的
◉ 图1。天然免疫沉淀提供了丰富的富集谱,保留了细胞器的连接(A)内源性标记策略。(B)阵列化细胞库。(C)天然免疫沉淀工作流程。(D)用于全面覆盖亚细胞区室的37个标记物。(E)台式离心分离用于核、细胞器和胞质的富集。(F)基于洗涤剂(1%洋地黄皂苷)与天然IP的线粒体标记TOMM20的富集谱。火山图显示了单个蛋白质在TOMM20 IP中的对数2富集程度相对于对照(见STAR方法)。p值:t检验来自三重测量。(G)在天然与基于洗涤剂条件下TOMM20 IP中的富集命中物(对数2富集≥1且p值≤0.01)。(H)注释为位于不同亚细胞区室的蛋白质在TOMM20天然IP中的富集。除了线粒体蛋白外,过氧化物酶体和ER蛋白也显著富集(∗p≤0.05,t检验)。箱形图显示了第25/50/75百分位;须表示1.5倍四分位距。(I-K)同(F-H),显示EDC4的IPs,EDC4是一个p-身体标记物(无膜细胞器)。(L)热图显示了注释为位于不同亚细胞区室的蛋白质在不同天然IP中的对数2富集。另见数据S1。图1中使用的所有注释数据均为文献整理(表S2)。另见图S1。
生信菜鸟团
2025/02/27
1440
Cell:对亚细胞蛋白质组进行全局表征,发现许多蛋白质是通过其空间分布的变化而非丰度变化来调节的
生信程序 | VeloCycle:使用流形约束的RNA速度模型进行统计推断揭示了细胞周期速度的调制
生信菜鸟团
2025/01/02
1270
生信程序 | VeloCycle:使用流形约束的RNA速度模型进行统计推断揭示了细胞周期速度的调制
开源数据代码,学习如何通过单细胞多组学数据鉴定关键因子
◉ 研究设计和计算分析的示意图。3DG,三维基因组。◉ WNN 表示的单核 RNA 测序和单核 ATAC 测序数据投影到 UMAP 上,显示主要细胞类型。◉ 伴随的饼图展示了在主要协变量(性别、脑库、脑区、年龄组和细胞类型)中代表的细胞核比例。MSSM,西奈山医学院。◉ 基于最高平均表达量的前两个基因标记可视化其在主要细胞类型中的基因表达。◉ 主要细胞类型中基因表达与相应基因活性(由染色质可及性推导)之间的余弦相似度。◉ 使用方差分解方法分析协变量对基因表达(左,n = 16,661 基因)、染色质可及性(中,n = 181,432 峰值)和细胞类型组成(右,n = 10 种细胞类型)的解释方差。在每个小提琴图中,中心线表示中位数,箱子表示四分位距(IQR),而须线表示在 1.5× IQR 范围内的最高/最低值。超出第一和第三四分位数 1.5 倍 IQR 的点被视为异常值。
生信菜鸟团
2025/04/04
970
开源数据代码,学习如何通过单细胞多组学数据鉴定关键因子
SWIG 官方文档第二部分 - 机翻中文人肉修正
本章简要概述了 C++11 标准的 SWIG 实现。SWIG 的这一部分仍在进行中。
韩伟
2021/09/03
2.4K0
推荐阅读
相关推荐
从excel文件xlsx中特定单元格中提取图片「建议收藏」
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档