假设没有外部标签数据,我们怎么评价不同聚类算法的优劣?
非监督学习往往没有标注数据,这是模型,算法的设计直接影响最终的输出和模型的性能。为了评估不同的聚类算法,我们可以从簇下手。
每种情况都需要不同的评估方法,比如K均值聚类可以使用平方误差和来评估。 聚类评估的认识是估计在数据集上进行聚类的可行性,以及聚类方法产生结果的质量,这一过程又分为三个子任务。
其中a(p)是点p与同一簇的其他点之间的平均距离,b(p)是点p与另一个不同簇的点之间的最小平均距离。a(p)反应了所属簇的数据紧凑程度,b(p)反应的是该簇与其他临近簇的分离程度。b(p)越大,a(p)越小,对应的聚类质量越好,因此我们将所有点对应的轮廓系数s(p)求平均值来度量聚类结果的质量。
其中
代表第i个簇,
是该簇的中心,
代表属于第i簇的一个样本点,
为第i个簇的样本数量,P为样本点对应的向量维数。RMSSTD可以看成一个归一化的标准差。
,通常NC
,因此
是一个接近点的总数的数,可以看成常数。
统计,略
本文分享自 Python与MySQL 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有