Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >聚类模型评估指标之内部方法

聚类模型评估指标之内部方法

作者头像
生信修炼手册
发布于 2021-05-27 08:06:17
发布于 2021-05-27 08:06:17
3.9K0
举报
文章被收录于专栏:生信修炼手册生信修炼手册

聚类算法的理想结果是同一类别内的点相似度高,而不同类别之间的点相似度低。聚类属于无监督学习,数据没有标签,为了比较不同聚类模型的好坏,我们也需要一些定量的指标来进行评估。根式是否提供样本的标签信息,相关的指标可以分为以下两大类

1. 外部方法,外部方法指的是从外部提供数据的标签,比如通过专家认为定义类别,或者是本身就是有标签的数据,将标签拿掉之后做聚类

2. 内部方法,内部方法指的是不需要数据的标签,仅仅从聚类效果本身出发,而制定的一些指标

本文主要关注内部方法,常用的指标有以下几种

1. 簇内误差平方和

within-cluster sum of square error, 简称SSE,公式如下

针对每一个聚类簇,计算簇内样本与聚类中心点的距离,然后加和。理论上,该数值越小越好。该指标的局限性在于只考虑了簇内相似度,没有考虑不同簇之间的关系。

2. Compactness

简称CP, 称之为紧密性,公式如下

针对单个聚类簇,计算簇内样本与中心点的平均距离,最后取所有簇的平均值即可计算出该指标。和SSE类似,也是只考虑了簇内相似度, 数值越小,聚类效果越好。

3. Separation

简称SP, 称之为间隔性,公式如下

w表示聚类的中心点,通过计算两两聚类中心点的距离来得到最终的数值。和紧密型相反,该指标仅仅考虑不同簇之间的距离,数值越大,聚类效果越好。

4. Silhouette Coefficient

称之为轮廓系数,对于某个样本而言,将该样本与簇内其他样本点之间的平均距离定义为簇的内聚度a, 将该样本与最近簇中所有样本点之间的平均距离定义为簇之间的分离度b, 则该样本轮廓系数的计算公式如下

对于全体样本的集合而言,轮廓系数是每个样本轮廓系数的平均值。该指标的取值范围-1到1,当簇间分离度b远大于内聚度a时,轮廓系数的值近似于1。所以该指标的值接近1,聚类效果越佳。

5. Calinski-Harabaz Index

简称为CH指数,综合考虑了簇间距离和簇内距离,计算公式如下

其中SSB表示的是簇内距离,SSW表示簇间距离,簇内距离用簇内样本点与簇中心点的距离表示,簇间距离用样本点与其他簇内中心点的距离表示,具体的计算公式表述如下

CH的数值越大,说明簇内距离越小,簇间距离越大,聚类效果越好。

6. Davies-Bouldin Index

简称DBI, 称之为戴维森堡丁指数,公式如下

其中avg(C)表示聚类簇的紧密程度,公式如下

计算该聚类簇内样本点的距离,d表示不同聚类簇中心点之间的距离,公式如下

聚类簇之间的距离越远,聚类内的距离越近,DB指数的值越小,聚类性能越好。

7. Dunn Validity Index

简称DVI, 称之为邓恩指数,公式如下

分子为聚类簇间样本的最小距离,分母为聚类簇内样本的最大距离,类间距离越大,类内距离越小,DVI指数的值越大,聚类性能越好。

·end·

—如果喜欢,快分享给你的朋友们吧—

原创不易,欢迎收藏,点赞,转发!生信知识浩瀚如海,在生信学习的道路上,让我们一起并肩作战!

本公众号深耕耘生信领域多年,具有丰富的数据分析经验,致力于提供真正有价值的数据分析服务,擅长个性化分析,欢迎有需要的老师和同学前来咨询。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-05-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
《机器学习》-- 第九章 聚类
聚类是一种经典的无监督学习(unsupervised learning)方法,无监督学习的目标是通过对无标记训练样本的学习,发掘和揭示数据集本身潜在的结构与规律,即不依赖于训练数据集的类标记信息。
fireWang
2021/03/16
6980
《机器学习》-- 第九章 聚类
聚类模型评估指标之外部方法
聚类算法的理想结果是同一类别内的点相似度高,而不同类别之间的点相似度低。聚类属于无监督学习,数据没有标签,为了比较不同聚类模型的好坏,我们也需要一些定量的指标来进行评估。根式是否提供样本的标签信息,相关的指标可以分为以下两大类
生信修炼手册
2021/05/27
2.9K0
机器学习聚类算法
聚类算法是一种无监督学习方法,用于将数据集中的样本划分为多个簇,使得同一簇内的样本相似度较高,而不同簇之间的样本相似度较低。在数据分析中,聚类算法可以帮助我们发现数据的内在结构和规律,从而为进一步的数据分析和挖掘提供有价值的信息。
@小森
2024/03/15
1740
机器学习聚类算法
6个常用的聚类评价指标
评估聚类结果的有效性,即聚类评估或验证,对于聚类应用程序的成功至关重要。它可以确保聚类算法在数据中识别出有意义的聚类,还可以用来确定哪种聚类算法最适合特定的数据集和任务,并调优这些算法的超参数(例如k-means中的聚类数量,或DBSCAN中的密度参数)。
deephub
2023/11/24
1.8K0
6个常用的聚类评价指标
聚类方法 学习总结
1)聚类的核心概念是相似度(similarity)或距离(distance),有多种相似度或距离的定义。因为相似度直接影响聚类的结果,所以其选择是聚类的根本问题。
全栈程序员站长
2022/09/27
1.1K0
吴恩达笔记8-KMeans
本周的主要知识点是无监督学习中的两个重点:聚类和降维。本文中首先介绍的是聚类中的K均值算法,包含:
皮大大
2021/03/02
8220
【机器学习 | 聚类】关于聚类最全评价方法大全,确定不收藏?
【深度学习 | 核心概念】那些深度学习路上必经的核心概念,确定不来看看? (一) 作者: 计算机魔术师 版本: 1.0 ( 2023.8.27 )
计算机魔术师
2023/11/27
1.7K0
【机器学习 | 聚类】关于聚类最全评价方法大全,确定不收藏?
一文读懂K均值(K-Means)聚类算法
大数据文摘授权转载自数据派THU作者:王佳鑫 审校:陈之炎 概述 众所周知,机器学习算法可分为监督学习(Supervised learning)和无监督学习(Unsupervised learning)。 监督学习常用于分类和预测。是让计算机去学习已经创建好的分类模型,使分类(预测)结果更好的接近所给目标值,从而对未来数据进行更好的分类和预测。因此,数据集中的所有变量被分为特征和目标,对应模型的输入和输出;数据集被分为训练集和测试集,分别用于训练模型和模型测试与评估。常见的监督学习算法有Regression
大数据文摘
2023/04/10
1.5K0
一文读懂K均值(K-Means)聚类算法
机器学习20:聚类(k-means模型、高斯混合聚类模型)
在无监督学习中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据内在的性质及规律,其中,应用最广的是聚类算法。
用户5473628
2019/08/08
3.2K0
机器学习20:聚类(k-means模型、高斯混合聚类模型)
原创 | 一文读懂K均值(K-Means)聚类算法
众所周知,机器学习算法可分为监督学习(Supervised learning)和无监督学习(Unsupervised learning)。
数据派THU
2022/12/16
11.4K0
原创 | 一文读懂K均值(K-Means)聚类算法
机器学习 | KMeans聚类分析详解
大量数据中具有"相似"特征的数据点或样本划分为一个类别。聚类分析提供了样本集在非监督模式下的类别划分。聚类的基本思想是"物以类聚、人以群分",将大量数据集中相似的数据样本区分出来,并发现不同类的特征。
数据STUDIO
2021/06/24
4.4K0
机器学习 学习笔记(13)聚类
在无监督学习中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础,此类学习任务中研究最多、应用最广的是聚类。
2018/09/04
1.1K0
机器学习 学习笔记(13)聚类
机器学习(7)——聚类算法聚类算法
聚类算法 前面介绍的集中算法都是属于有监督机器学习方法,这章和前面不同,介绍无监督学习算法,也就是聚类算法。在无监督学习中,目标属性是不存在的,也就是所说的不存在“y”值,我们是根据内部存在的数据特征,划分不同的类别,使得类别内的数据比较相似。 我们对数据进行聚类的思想不同可以设计不同的聚类算法,本章主要谈论三种聚类思想以及该聚类思想下的三种聚类算法。666 本章主要涉及到的知识点有: “距离” K-Means算法 几种优化K-Means算法 密度聚类 算法思想:“物以类聚,人以群分” 本节首先通过聚类算法
DC童生
2018/04/27
3.8K0
机器学习(7)——聚类算法聚类算法
聚类分析
聚类是一种无监督学习,聚类的方法几乎可以应用于所有对象。 聚类分析根据聚类算法将数据或样本对象划分成两个以上的子集。 每一个子集称为一个簇,簇中对象因特征属性值接近而彼此相似。不同簇对象之间则彼此存在差异。 把相似的对象归于统一组,不同对象归于不同组。需要一种相似度的计算方法
爱编程的小明
2022/09/05
1.7K0
聚类分析
KMeans+降维,实现用户聚类!
基于Python Outlier Detection库进行异常值处理(Kmeans对异常值敏感)。
皮大大
2023/11/09
8810
机器学习算法之聚类算法
"If you set your goals ridiculously high and it's a failure, you will fail above everyone else's success.
小闫同学啊
2020/02/26
1.3K0
「Workshop」第十期:聚类
聚类分析的思想:对于有p个变量的数据集来说,每个观测值都是p维空间中的一个点,所以属于同一类的点在空间中的距离应该显著小于属于不同类的点之间的距离
王诗翔呀
2020/07/29
2.9K0
「Workshop」第十期:聚类
全面解析Kmeans聚类算法(Python)
Clustering (聚类)是常见的unsupervised learning (无监督学习)方法,简单地说就是把相似的数据样本分到一组(簇),聚类的过程,我们并不清楚某一类是什么(通常无标签信息),需要实现的目标只是把相似的样本聚到一起,即只是利用样本数据本身的分布规律。
算法进阶
2022/06/02
2.2K0
全面解析Kmeans聚类算法(Python)
聚类方法
聚类的对象是观测数据或者样本集合,用相似度或者距离来表示样本之间的相似度。常用的距离:
皮大大
2021/03/02
6230
机器学习之鸢尾花-聚类
将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。
python与大数据分析
2022/03/11
7360
机器学习之鸢尾花-聚类
相关推荐
《机器学习》-- 第九章 聚类
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档