首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

DBSCAN聚类算法详解

欢迎关注”生信修炼手册”!

DBSCAN全称如下

Density-Based Spatial Clustering of Applications with Noise

是一种基于密度的聚类算法,所谓密度,就是说样本的紧密程度对应其类别,属于同一个cluster的样本是紧密相连的。为了定量描述紧密相连,首先引入以下3个因素

1. distance funcition, 距离的度量方式,通过距离来定量描述样本点之间的关系,这里的距离可以是欧式距离之类的计算公式

2. Epsilon, 距离的阈值,用于定义一个邻域,通过统计邻域内的样本个数来定义样本类型

3. minPoints, 领域内的最小样本数,如果大于该阈值,则将样本称之为核心样本

在DSCAN算法中,将样本划分为以下3类,图示如下

1. core point, eps邻域内的样本数大于minPoints

2. border points, eps邻域内的样本数小于minPoints

3. noise points, 噪音点,不属于任何core points的邻域内

在eps邻域和minPoints的基础上, 通过以下两个概念来描述样本的紧密相连

1. 密度直达

如下图所示

样本X在核心样本Y的邻域内,则称Y到X是密度直达的,注意这个关系是单向的,反向不一定成立

2. 密度可达

如下图所示

核心样本Y到核心样本P3是密度直达的,核心样本P3到核心样本P2是密度直达的,核心样本P2到样本X是密度直达的,像这种通过P3和P2的中转,在样本Y到样本X建立的关系叫做密度可达。

3. 密度相连

如下图所示

核心样本O到样本Y是密度可达的,同时核心样本O到样本X是密度可达的,这样的关系,我们可以说样本X和样本Y是密度相连的。

对于一系列密度可达的点而言,其邻域范围内的点都是密度相连的,下图所示是一个minPoints为5的领域,红色点为core ponit, 绿色箭头连接起来的则是密度可达的样本集合,在这些样本点的邻域内的点构成了一个密度相连的样本集合,这些样本就属于同一个cluster

DBSCAN的聚类过程就是根据核心点来推导出最大密度相连的样本集合,首先随机寻找一个核心样本点,按照minPoiints和eps来推导其密度相连的点,赋予一个cluser编号,然后再选择一个没有赋予类别的核心样本点,开始推导其密度相连的样本结合,一直迭代到所有的核心样本点都有对应的类别为止。

在scikit-learn中,使用DBSCAN聚类的代码如下

labels_属性记载了样本对应的cluster编号,其中编号为-1的为噪音点,上述聚类的结果可视化如下

结果如下所示

相比kmeans算法,DBSCAN算法不需要事先指定聚类的类别数目K,而且适用的范围更广泛,可以对任意形状的数据进行聚类,同时还可以发现异常值点。

·end·

—如果喜欢,快分享给你的朋友们吧—

原创不易,欢迎收藏,点赞,转发!生信知识浩瀚如海,在生信学习的道路上,让我们一起并肩作战!

本公众号深耕耘生信领域多年,具有丰富的数据分析经验,致力于提供真正有价值的数据分析服务,擅长个性化分析,欢迎有需要的老师和同学前来咨询。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20210317A0DJBR00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券