如何从rapidminer中的聚类方法计算Davies Bouldin？

文章/答案/技术大牛

发布

0回答

cluster-analysis、rapidminer

我想在没有k-means的情况下对数据进行聚类。例如，我更喜欢使用DBSCAN或支持向量聚类进行聚类。因此，我需要使用Davies Bouldin度量来评估聚类的性能，但我不知道如何在Rapidminer for DBSCAN或支持向量聚类中计算Davies Boul

浏览 10提问于2017-06-09得票数 0

回答已采纳

2回答

自动确定聚类数k-means

cluster-analysis、data-mining、k-means、rapidminer

我想在rapid miner中建立一个集群模型，它可以自动定义集群的数量，然后继续使用k-means算法。在快速挖掘器中有没有自动确定聚类k的方法？

浏览 0提问于2014-11-09得票数 1

1回答

聚类性能评价(Davies指数)误差

python、scikit-learn、cluster-analysis、k-means

我试图使用不同的聚类性能评估方法来确定集群的最佳数量。我把我的数据通过循环运行DBA k-方法。我得到肘部和剪影的结果，但邓恩指数显示错误。以下是代码：silhouette = []clusters_range = range(1, 10)for K insilhouette.append(silhouette_score(scale

浏览 8提问于2022-06-24得票数 0

回答已采纳

1回答

Sklearn k-均值聚类(加权)，确定每个特征的最佳样本权重？

machine-learning、scikit-learn、cluster-analysis、unsupervised-learning、feature-clustering

K-均值聚类在学习中，簇数是预先已知的(它是2).有多种特征。特征值最初是不分配任何权重的，即它们被同等对待。然而，任务是为每个特性分配自定义权重，以获得最佳的聚类分离。如何确定每个特征的最优样本权重(sample_weight)，从而得到两个聚类之间的最佳分离？如果对于k均值或sklearn来说，这是不可能的，那么我对任何可选的</em

浏览 6提问于2021-01-05得票数 0

1回答

时间序列聚类质量度量

clustering、time-series、unsupervised-learning、performance

我是聚类时间序列数据集，这些数据集没有标签(没有根据事实)，我想衡量集群的质量。你能不能建议一下可以用于时间序列聚类的聚类性能评估方法？

浏览 0提问于2018-10-06得票数 1

1回答

在聚类位置数据的情况下，寻找真正、真负等？

cluster-analysis、precision-recall

我一直在尝试评估一种聚类技术。我知道F1评分是有效的方法之一。在分类的情况下，我理解了它，但是由于没有这个类，我无法在这个例子中弄清楚。在我的场景中，我不可能有分类指标。由于我使用的是位置数据，所以我可以从形成的集群中找到以下可能的结果：Midpoint of the cluster 我可以

浏览 1提问于2015-04-08得票数 0

1回答

基于Mahalanobis距离的距离矩阵聚类

cluster-analysis、distance、covariance、k-means

在我想要聚类的对象之间有一组成对距离(在矩阵中)。我目前使用k-均值聚类(计算距离从质心到给定集群的所有成员的平均距离，因为我没有坐标)，在一个区间内，k由最佳Davies-Bouldin索引选择。目前，我用欧几里德距离计算三个度量指标之间的距离矩阵，但我相当肯定，这些度量之间的差异正在搞砸它(例如，最大的度量

浏览 3提问于2014-05-20得票数 1

回答已采纳

1回答

什么被认为是一个好的剪影得分？

python、k-means

我目前正在进行一些基于单词嵌入的聚类，并且我正在使用一些方法(肘部和doing )来确定我应该考虑的最佳集群数。此外，我还考虑了轮廓度。如果我正确理解了它，它就是测量数据与正确集群的正确匹配，范围从-1(不匹配)到1(正确匹配)。使用kmeans聚类，我得到了一个轮廓在0.5到0.55之间波动的分数。我添加了我所做的不同度量的图表，我用来生成它们的函数(在网上找

浏览 3提问于2021-02-24得票数 0

1回答

R中的输入k-均值

r、cluster-analysis、k-means

我正在尝试对一个69列1000行的数据帧执行k-means。首先，我需要首先使用Davies-Bouldin指数来确定最优的集群数量。这个算法要求输入应该是矩阵的形式，我首先使用了下面的代码：然后是以下代码(Davies-Bouldin索引)#Davies Bouldin a

浏览 0提问于2017-04-28得票数 0

2回答

如何分析没有真实标签的聚类的完整性？

python-3.x、machine-learning、scikit-learn、cluster-analysis、silhouette

我正在对数据进行聚类(尝试多个算法)，并试图评估每个算法产生的集群的一致性/完整性。我没有任何基本的真实标签，这排除了相当多的指标来分析性能。到目前为止，我一直在使用剪影得分以及calinski harabaz得分(从滑雪)。然而，有了这些分数，我才能比较聚类的完整性，如果我从算法中产生的标签建议至少有两个聚类--但我的</em

浏览 0提问于2018-07-14得票数 1

5回答

我的python实现的Davies指数正确吗？

python、statistics、cluster-analysis、metrics、data-science

我正在用Python计算。5步 <e

浏览 18提问于2017-12-30得票数 5

回答已采纳

1回答

为什么戴维斯-博尔德选择了一个比剪影或卡林斯基哈拉巴斯更高的数字？

clustering、k-means、model-evaluations

我正在使用几个度量来知道有多少簇是正确的。为了做到这一点，我选择了3种聚类算法和3种内部评估指标，剪影、Calinsky Harbasz和Davies Bouldin。其结果如下：Kmean 3 3 9Gauss 3 3 10 最初的数据集有三个组，通常S和CH都很好，问题是DB总是为集群的数量返回一个高值吗？

浏览 0提问于2020-07-26得票数 1

回答已采纳

2回答

rapidminer中的召回率和精确度

cluster-analysis、rapidminer、precision-recall

在excel中有一个数据集，它在A列中包含一些标签(我称之为集群标签)，在B列中包含一些属性(我称之为集群组件)。这些数据显示了最佳的聚类结果。但是我不知道如何在rapidminer中使用这些数据来计算其他聚类方法的召回率和准确率！有人能帮我吗？

浏览 0提问于2011-05-05得票数 0

1回答

RapidMiner中具有动态时间翘曲的K-介质

cluster-analysis、rapidminer

如何在RapidMiner中利用动态时间翘曲作为距离度量来实现K-介质聚类？The data contains missing values which is not allowed for KMediods 如何对不同长度的时间序列进行聚类？

浏览 2提问于2015-01-12得票数 1

回答已采纳

2回答

rapidminer和scikit-learn中的DBSCAN算法

cluster-analysis、data-mining、scikit-learn、rapidminer、dbscan

我正在尝试寻找一种聚类算法，用python对名义数据进行聚类。为此，我在RapidMiner上尝试了DBSCAN算法，它处理的是名义数据。但是，当我用scikit-learn提供的DBSCAN算法尝试相同的数据集时，它给出了错误，即函数无法将字符串转换为浮点数。rapidminer和scikit中的DBSCAN是否不同，我如何解决这个问题？另外，如果你告诉我另一种适用于名义数据<e

浏览 3提问于2014-07-21得票数 0

4回答

如何用Python中的K-均值聚类找到最优聚类数

python、cluster-analysis、k-means、euclidean-distance、cosine-similarity

我对聚类算法很陌生。我有一个有200多部电影和100多个用户的电影数据集。所有的用户至少给一部电影打分。如果注解器没有选择，值1表示好，0表示坏和空白。我想根据他们的评论对相似的用户进行聚类，他们的想法是，将类似电影评为好的用户可能也会将同一组中没有被任何用户评为好的电影。我使用了k均值聚类的余弦相似性度量。user100 1 0

浏览 3提问于2021-02-01得票数 3

回答已采纳

1回答

如何评价tfidf和kmeans的结合

scikit-learn、machine-learning-model、k-means、tfidf

对于我的nlp问题，我使用了一个TF下手和KMeans的组合从学习包。tfidf获取向量，然后使用Kmeans对文本进行基于向量的聚类。我有一些类似于n_gram、输入特性和stop_words之类的TFIDF参数。问题是如何评估这个模型？我的猜测是，我不需要评估KMeans模型，因为它的作用只是计算点之间的距离，而我只需要专注于TFIDF模型和我最终使用的参数。

浏览 0提问于2022-12-06得票数 0

1回答

Rapidminer - k-means查询

rapidminer

很抱歉，如果这是一个非常新手的问题，但我最近开始探索Rapidminer。我已经使用它通过K-means聚类对我的样本数据进行了聚类。我的疑问是，如果我使用一个excel原始数据文件进行聚类，我如何在excel文件中得到我的excel数据输出数据拆分成K个聚类。我知道如何创建集群并在设计和结果屏幕之间切换。提

浏览 3提问于2016-01-29得票数 0

8回答

您使用哪些数据挖掘工具？

open-source、data-mining

除了两个著名的开源工具RapidMiner和Weka之外，您还可以推荐其他好的工具(开源或商业)来进行数据挖掘吗？提前感谢！

浏览 5提问于2009-08-12得票数 6

1回答

在TraMineR::seqdist中设置"tpow“和”费用“参数

r、cluster-analysis、traminer、sequence-analysis

我实际上正在研究住院病人住院期间的路径。这些路径被表示为状态序列(每个时间单元上的当前医疗单元)，我试图通过聚类算法找到典型的路径。我使用来自R包的seqdist函数TraMineR和方法"OMspell"来创建距离矩阵。我已经阅读了R文档和相关文章，但我找不到如何设置参数tpow和expcost。由于时间单位是一个小时，我不希望持续时间的任何微小差异对聚类结果产生很大影响(例如，与医疗单元转移相

浏览 3提问于2018-12-17得票数 1

回答已采纳

点击加载更多