stats.stackexchange.com/questions/62092/bottom-to-top-explanation-of-the-mahalanobis-distance 上面三个网页对马氏距离解释的很好
马氏距离(Mahalanobis distance)是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示点与一个分布之间的距离。...与欧氏距离不同的是,它考虑到各种特性之间的联系,本文介绍马氏距离相关内容。...马氏距离 度量样本距离某个分布的距离,先将样本与分布标准化到多维标准正态分布后度量欧式距离 思想 将变量按照主成分进行旋转,消除维度间的相关性 对向量和分布进行标准化,让各个维度同为标准正态分布...我们将去相关化、0均值化、标准化过后的数据记为Z: image.png 而马氏距离就是度量纠正过后的向量Z到分布中心(原点)的欧式距离: image.png 参考资料 https...://baike.baidu.com/item/马氏距离/8927833?
二、马氏距离(Mahalanobis Distance) 1.定义 马氏距离(Mahalanobis distance)是由印度统计学家马哈拉诺比斯(P. C....对于一个均值为μ,协方差矩阵为Σ的多变量行向量x(设x有m个分量,且每个分量都是n维列向量),其马氏距离矩阵为: 其中 可以发现,(x-μ)T是m×n矩阵,Σ是n×n矩阵,(x-μ)...是n×m矩阵,所以DM(x)是m×m矩阵,衡量的是向量x不同分量两两之间的马氏距离。...3个维度的属性),(x-y)是3×1矩阵,所以d(x,y)是一个1×1的数值,衡量的是x与y之间的马氏距离。...3.两个样本点的马氏距离计算示例: Matlab计算协方差矩阵验算(矩阵a的列代表属性,行代表样本点): 得到协方差矩阵后,我们就可以计算出v和x之间的马氏距离了: Matlab验算:
它提供了基于对数行列式矩阵发散的框架,该框架能够有效地优化结构化的、低参数的马氏距离。 马氏距离是一类具有良好泛化性质的距离函数。马氏距离推广了k近邻分类器等算法常用的标准平方欧氏距离。...然而,在高维环境中,由于马氏距离函数与d×d矩阵的二次依赖性,学习和评估马氏距离函数的问题变得非常棘手。这种二次依赖性不仅影响训练和测试的运行时间,而且对估计二次参数的数量提出了巨大的挑战。...此外,ITML假设由正定矩阵A0参数化的基线马氏距离函数。...考虑两点x和y的潜在因素之间的欧氏距离: 其中: 低阶马氏距离也可以在O(dk)时间内有效地计算,因为二维实例x和y之间的距离可以通过首先通过计算R T x和R T y将它们映射到低维空间来计算,然后在低维点之间计算标准平方欧几里德距离...注意,后一步可能不需要,因为如下所示,可以在O(dk)时间内计算两点之间的低阶马氏距离,而无需显式计算A。 【总结】:本文介绍了度量学习如何处理高维数据问题。
它提供了基于对数行列式矩阵发散的框架,该框架能够有效地优化结构化的、低参数的马氏距离。 马氏距离是一类具有良好泛化性质的距离函数。马氏距离推广了k近邻分类器等算法常用的标准平方欧氏距离。...然而,在高维环境中,由于马氏距离函数与d×d矩阵的二次依赖性,学习和评估马氏距离函数的问题变得非常棘手。这种二次依赖性不仅影响训练和测试的运行时间,而且对估计二次参数的数量提出了巨大的挑战。 ?...此外,ITML假设由正定矩阵A0参数化的基线马氏距离函数。正式目标是学习由A参数化的马哈拉诺比斯距离,该距离具有到给定基线矩阵A0的最小LogDet散度,同时满足给定约束: ?...低阶马氏距离也可以在O(dk)时间内有效地计算,因为二维实例x和y之间的距离可以通过首先通过计算R T x和R T y将它们映射到低维空间来计算,然后在低维点之间计算标准平方欧几里德距离b。...注意,后一步可能不需要,因为如下所示,可以在O(dk)时间内计算两点之间的低阶马氏距离,而无需显式计算A。 ? 【总结】:本文介绍了度量学习如何处理高维数据问题。
image.png 曼哈顿距离 曼哈顿距离(Manhattan Distance)又称城市街区距离,用于表明两个坐标点在标准坐标系中的绝对轴距总和,也就是在欧几里德空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和...图中红线代表曼哈顿距离,绿色代表欧氏距离,也就是直线距离,而蓝色和黄色代表等价的曼哈顿距离。...image.png 切比雪夫距离 image.png 闵式距离 image.png 马氏距离 马氏距离(Mahalanobis Distance)表示数据的协方差距离。...马氏距离有很多优点,马氏距离不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关;由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同。...马氏距离还可以排除变量之间的相关性的干扰。它的缺点是夸大了变化微小的变量的作用。
马氏分布是指从测试点到质心的距离除以椭圆在测试点方向上的宽度。 为了使用马氏距离来判别一个测试点属于 N 个分类中的哪一个,首先应该基于已知样本与各个分类的对应情况,来估计每个类的协方差矩阵。...接下来,拿来测试样本,计算出它们与“正常”类别的马氏距离,如果距离高于所设置的阈值,则说明该测试点为“异常”。...方法一:PCA + 马氏距离 正如本文“技术部分”中所介绍的,第一种方法先进行主成分分析,然后计算其马氏距离,来辨别一个数据点是正常的还是异常的(即设备退化的信号)。...代表“健康”设备的训练数据的马氏距离的分布如下图所示: ? 图3:“健康”设备的马氏距离分布 利用“健康”设备的马氏距离分布,我们可以设定判断是否为异常点的阈值。...从上面的分布图来看,我们可以定义马氏距离大于 3 的部分为异常。这种检测设备老化的估计方法,需要计算测试集中全部数据点的马氏距离,并将其与所设置的阈值进行比较,来标记其是否异常。
K-means 簇的数量 数值型数据 欧几里德距离...数值型或类别型数据可选多种距离度量方法,如欧几里德距离、曼哈顿距离等优点:不需要预先指定簇的数量,可用于发现任意形状的簇;缺点:计算复杂度高,不适用于处理大规模数据...闵可夫斯基距离(Minkowski Distance) 闵可夫斯基距离是欧氏距离和曼哈顿距离的一种推广,它通过参数p来控制距离的计算方式。...马氏距离(Mahalanobis Distance) 马氏距离考虑了数据集的协方差矩阵,通过将数据映射到一个空间中,使得在该空间中的欧氏距离与原始空间中的马氏距离等价。...马氏距离可以解决特征之间的相关性和尺度不同的问题。优点:考虑了特征之间的相关性,适用于高维数据。缺点:需要估计协方差矩阵,计算复杂度较高。
以下是常用的聚类算法, 聚类算法 模型所需参数 适用范围 距离度量 优缺点 K-means 簇的数量 数值型数据 欧几里德距离 优点:简单易实现,计算效率高;缺点:对初始聚类中心敏感,不适用于非凸形状的簇...层次聚类(Hierarchical Clustering) 距离或相似度的度量方法 数值型或类别型数据 可选多种距离度量方法,如欧几里德距离、曼哈顿距离等 优点:不需要预先指定簇的数量,可用于发现任意形状的簇...闵可夫斯基距离(Minkowski Distance) 闵可夫斯基距离是欧氏距离和曼哈顿距离的一种推广,它通过参数p来控制距离的计算方式。...马氏距离(Mahalanobis Distance) 马氏距离考虑了数据集的协方差矩阵,通过将数据映射到一个空间中,使得在该空间中的欧氏距离与原始空间中的马氏距离等价。...马氏距离可以解决特征之间的相关性和尺度不同的问题。 优点:考虑了特征之间的相关性,适用于高维数据。缺点:需要估计协方差矩阵,计算复杂度较高。
(样本间最大与最小欧氏距离之间的相对差距就趋近于0),也就是维度灾难的问题,如下式结论: 对于维度灾难的问题,常用的有PCA方法进行降维计算。...另外可以使用马氏距离(协方差距离),与欧式距离不同其考虑到各种特性之间的联系是(量纲)尺度无关 (Scale Invariant) 的,可以排除变量之间的相关性的干扰,缺点是夸大了变化微小的变量的作用。...马氏距离定义为: 马氏距离原理是使用矩阵对两两向量进行投影后,再通过常规的欧几里得距离度量两对象间的距离。...当协方差矩阵为单位矩阵,马氏距离就简化为欧氏距离;如果协方差矩阵为对角阵,其也可称为正规化的欧氏距离。...,简单归类如下[2]: 基于降维的度量学习算法是学习一个到低维的映射矩阵,使得映射后的样本具有某些性质。
马氏距离 考虑下面这张图,椭圆表示等高线,从欧几里得的距离来算,绿黑距离大于红黑距离,但是从马氏距离,结果恰好相反: ?...马氏距离实际上是利用 Cholesky transformation 来消除不同维度之间的相关性和尺度不同的性质。...处理之后的欧几里得距离就是原样本的马氏距离:为了书写方便,这里求马氏距离的平方): ? 下 图蓝色表示原样本点的分布,两颗红星坐标分别是(3, 3),(2, -2): ?...最恰当的方法是对原始数据进行 Cholesky 变换,即求马氏距离(可以看到,右边的红星离原点较近): ?...马氏距离的变换和 PCA 分解的白化处理颇有异曲同工之妙,不同之处在于:就二维来看,PCA 是将数据主成分旋转到 x 轴(正交矩阵的酉变换),再在尺度上缩放(对角矩阵),实现尺度相同。
,待收到测试样本后再进行计算。)...2.2 KNN最近邻分类算法的过程 计算测试样本和训练样本中每个样本点的距离(常见的距离度量有欧式距离,马氏距离等); 对上面所有的距离值进行排序; 选前 k 个最小距离的样本; 根据这 k 个样本的标签进行投票...不同于MDS采用距离保持的方法,主成分分析(PCA)直接通过一个线性变换,将原始空间中的样本投影到新的低维空间中。...可采用著名的Dijkstra算法或Floyd算法计算最短距离,得到高维空间中任意两点之间的距离后便可以使用MDS算法来其计算低维空间中的坐标。...这样计算距离就不能分属性单独计算,于是就引入经典的马氏距离(Mahalanobis distance): 标准的马氏距离中M是协方差矩阵的逆,马氏距离是一种考虑属性之间相关性且尺度无关(即无须去量纲)的距离度量
,包括: 闵可夫斯基距离 欧几里得距离 曼哈顿距离 切比雪夫距离 马氏距离 余弦相似度 皮尔逊相关系数 汉明距离 杰卡德相似系数 编辑距离 DTW 距离 KL 散度 1....马氏距离 考虑下面这张图,椭圆表示等高线,从欧几里得的距离来算,绿黑距离大于红黑距离,但是从马氏距离,结果恰好相反: ?...马氏距离实际上是利用 Cholesky transformation 来消除不同维度之间的相关性和尺度不同的性质。假设样本点(列向量)之间的协方差对称矩阵是 ?...处理之后的欧几里得距离就是原样本的马氏距离:为了书写方便,这里求马氏距离的平方): ? 下图蓝色表示原样本点的分布,两颗红星坐标分别是(3, 3),(2, -2): ?...最恰当的方法是对原始数据进行 Cholesky 变换,即求马氏距离(可以看到,右边的红星离原点较近): ?
相似度度量 相似度或距离度量是聚类分析的核心概念。常用的距离度量方式包括闵氏距离和马氏距离,常用的相似度度量方式包括相关系数和夹角余弦等。...闵氏距离 闵氏距离即闵可夫斯基距离(Minkowski Distance),定义如下。...给定维向量样本集合,对于,,,样本与样本之间的闵氏距离可定义为: , 当时,闵氏距离就可以表达为欧式距离(Euclidean Distance): 当时,闵氏距离也称为曼哈顿距离(Manhatan Distance...): 当时,闵氏距离也称为切比雪夫距离(Chebyshev Distance): 马氏距离 马氏距离全称为马哈拉诺比斯距离(Mahalanobis Distance),即一种考虑各个特征之间相关性的聚类度量方式...给定一个样本集合,其协方差矩阵为,样本与样本之间的马氏距离可定义为: 当为单位矩阵时,即样本的各特征之间相互独立且方差为1时,马氏距离就是欧式距离。
⑨ 马氏距离 马氏距离Mahalanobis是一种主要用于多变量统计测试的度量指标,其中欧氏距离无法给出观测值之间的实际距离。它测量数据点离分布有多远。 来自平均值的具有相同 ED 值的两个点。...使用这种技术,我们可以沿着这个方向缩小数据集并围绕均值(PCA)旋转它。然后我们可以使用欧几里得距离,它给出了与前两个数据点之间的平均值的不同距离。这就是马哈拉诺比斯指标的作用。...两个物体 P 和 Q 之间的马氏距离。 其中C表示属性或特征之间的协方差矩阵。...: 除了其用例之外,马哈拉诺比斯距离还用于Hotelling t 方检验[2]。...它是通过将变量转换为所有具有等于 1 的相同方差并将特征集中在平均值周围来完成的,如下面的公式所示 Z 分数标准化: 标准化的欧几里德距离可以表示为: 可以应用这个公式来计算 A 和 B 之间的距离
可以看出,欧式距离是闵氏距离在k=2时的特例。...绝对(曼哈顿)距离 两观测点x和y间的绝对(曼哈顿)距离是指两观测点p个变量值绝对之差的总和: 可以看出,绝对(曼哈顿)距离是闵氏距离在k=1时的特例。...切比雪夫距离 两观测点x和y间的切比雪夫距离是指两观测点p个变量值绝对之差的最大值: 可以看出,切比雪夫距离是闵氏距离在k=无穷大时的特例 夹角余弦距离...当然除了以上的相似度量方法还有很多,马氏距离、交叉熵、KL变换等,都是可以衡量相似度的方法,但是要注意在什么情境用什么方法; 3....标准分数法: 极差(极大-极小值法)法: 另外,很多时候是这么做的,例如在DL中我们用CNN提取的特征作为kNN的样本;或者更传统一点,可以通过PCA降维后的结果作为kNN的样本;可以减少维度灾难
欧氏距离 欧氏距离的计算公式如下 2.明氏距离 明氏距离是一种带有明氏距离的计算公式如下式 其中,t为一个正整数。...显而易见,当式中的t=2时,就得到欧式距离,所以欧氏距离可以看成明氏距离的一个特例。欧氏距离是聚类算法中用来度量数据对象间相异性最常用的方法之一。...类似的相似度度量方法还有曼哈顿距离、切氏距离、马氏距离、兰氏距离等,只不过这些相似度度量方法不常用而已,分别定义如下: 曼哈顿距离: 马氏距离: 其中, 表示样本协方差阵的逆阵...传统K均值聚类篡法的的流程 具体步骤为: 首先利用随机选取从数据集中抽取 K 个数据对象作为初始聚类中心;然后计算剩余数据对象与各个聚类中心的欧几里德距离,按照距离最小原则来划分类别;完成一轮聚类后...,再计算每一类的平均值,用 K 个平均值作为新的 K 个聚类中心,再计算剩余的数据对象与这 K 个聚类中心的欧几里德距离,再按照距离最小原则划分类别,循环反复,直到满足某个终止条件迭代才停止。
EFA和PCA的区别在于:PCA中的主成分是原始变量的线性组合,而EFA中的原始变量是公共因子的线性组合,因子是影响变量的潜在变量,变量中不能被因子所解释的部分称为误差,因子和误差均不能直接观察到。...虽然EFA和PCA有本质上的区别,但在分析流程上有相似之处。...一、距离的度量 多元分析中常用有以下几种距离,即绝对值距离、欧氏距离(euclidean)、马氏距离(manhattan)、 两项距离(binary)、明氏距离(minkowski)。...可用于定义“距离”的统计量包括了欧氏距离(euclidean)、马氏距离(manhattan)、 两项距离(binary)、明氏距离(minkowski)。还包括相关系数和夹角余弦。...层次聚类首先将每个样本单独作为一类,然后将不同类之间距离最近的进行合并,合并后重新计算类间距离。这个过程一直持续到将所有样本归为一类为止。
因此接下来我们要做的就是根据已有的距离矩阵D来求解出降维后的坐标矩阵Z。 ?...10_6.png 10.3 主成分分析(PCA) 不同于MDS采用距离保持的方法,主成分分析(Principal Component Analysis ,PCA)直接通过一个线性变换,将原始空间中的样本投影到新的低维空间中...事实上,不管高维空间还是低维空间都潜在对应着一个距离度量,那可不可以直接学习出一个距离度量来等效降维呢?例如:按照降维后的方式来进行距离的计算。...这样计算距离就不能分属性单独计算,于是就引入经典的马氏距离(Mahalanobis distance): ?...10_23.png 标准的马氏距离中M是协方差矩阵的逆,马氏距离是一种考虑属性之间相关性且尺度无关(即无须去量纲)的距离度量。 ?
领取专属 10元无门槛券
手把手带您无忧上云