使用值阈值从矩阵定义聚类，并在Python中按聚类大小命名

，可以通过以下步骤实现：

定义值阈值：值阈值是一个用来判断两个元素是否属于同一聚类的阈值。当两个元素的值之间的差距小于或等于值阈值时，它们将被视为同一聚类的成员。
构建矩阵：根据需要进行聚类的数据，构建一个矩阵。该矩阵可以是一个二维数组，其中每个元素代表一个数据点的值。
计算聚类：遍历矩阵中的每个元素，与其他元素进行比较。如果两个元素之间的差距小于或等于值阈值，则将它们归为同一聚类。可以使用循环和条件判断来实现这一步骤。
命名聚类：根据聚类的大小，为每个聚类命名。可以使用Python中的字典数据结构来存储聚类及其大小，键为聚类名称，值为聚类大小。

以下是一个示例代码，演示如何使用值阈值从矩阵定义聚类并按聚类大小进行命名：

import numpy as np

def cluster_by_threshold(matrix, threshold):
    clusters = {}
    cluster_counter = 1

    for i in range(len(matrix)):
        if i not in clusters:
            clusters[i] = cluster_counter
            cluster_counter += 1

        for j in range(i + 1, len(matrix)):
            if j not in clusters and abs(matrix[i] - matrix[j]) <= threshold:
                clusters[j] = clusters[i]

    return clusters

# 示例矩阵
matrix = np.array([1, 2, 3, 5, 8, 10, 12, 14, 15])
threshold = 3

# 聚类
clusters = cluster_by_threshold(matrix, threshold)

# 按聚类大小命名
sorted_clusters = sorted(clusters.items(), key=lambda x: x[1], reverse=True)
cluster_names = {cluster[0]: f"Cluster {index+1}" for index, cluster in enumerate(sorted_clusters)}

# 输出结果
for i in range(len(matrix)):
    cluster_name = cluster_names[clusters[i]]
    print(f"Data point {matrix[i]} belongs to {cluster_name}")

运行以上示例代码，输出结果将为：

Data point 1 belongs to Cluster 1
Data point 2 belongs to Cluster 1
Data point 3 belongs to Cluster 1
Data point 5 belongs to Cluster 2
Data point 8 belongs to Cluster 2
Data point 10 belongs to Cluster 2
Data point 12 belongs to Cluster 2
Data point 14 belongs to Cluster 2
Data point 15 belongs to Cluster 2

在以上示例中，我们使用了一个简单的值阈值判断条件，即两个元素之间的差距是否小于等于3。根据聚类的大小，我们将聚类命名为"Cluster 1"和"Cluster 2"。这只是一个示例，你可以根据实际需求和具体场景来调整值阈值和命名规则。

页面内容是否对你有帮助？

有帮助

没帮助

为什么不使用距离矩阵而不是聚类算法来面对聚类算法呢？

、、、、

我当时正在读，注意到这个过程是这样的：利用训练后的网络将人脸转换为矢量基于距离的中文耳语聚类算法当试图对大量(>10,000)图像进行聚类时，中文耳语聚类可能需要相当长的时间。在这篇文章中，作者使用另一种聚类算法DBSCAN按人对多幅图像进行分组。由于神经网络生成的向量可以用来计算两面之间的相似性，那么，如果只计算一个，然后搜索所有满足置信阈值的值(例如，70%置信度x< 0.3 )，岂不是更好？为什么要使用聚类算法，因为您只需比较每一张脸和每一张脸，就可以确定哪一张是同一个人？DBSCAN和中文耳语聚类都比计算距离矩阵花费的时间长得多。根据我的30,0

浏览 0提问于2019-04-02得票数 1

回答已采纳

2回答

如何在Python中从scipy中的链接/距离矩阵计算集群分配？

、、、

如果您在Python中的scipy中有此分层聚类调用： from scipy.cluster.hierarchy import linkage # dist_matrix is long form distance matrix linkage_matrix = linkage(squareform(dist_matrix), linkage_method) 那么，从这里开始对单个点的分配进行聚类的有效方法是什么？即长度为N的向量，其中N是点数，其中每个条目i是点i的簇数，给定给定阈值thresh在结果聚类上生成的簇数？需要说明的是:簇号是在对树应用阈值之后它所在的簇。在这种情况下，您将为它

浏览 5提问于2013-04-11得票数 24

回答已采纳

1回答

基于最大惯性的聚类

是否有一种基于惯性阈值的聚类方法，其中每个集群惯性不能超过一个惯性，一个特定的惯性我尝试过与距离阈值完全连接的层次聚类，但无法控制集群的总距离。更多信息：我使用预先计算的距离矩阵，这里的主要目标是使用道路网络划分驾驶员之间的目的地(目的地距离矩阵)。

浏览 0提问于2022-11-05得票数 0

3回答

用距离矩阵聚类对象

假设有几个对象: o1，o2，o3. 并且有一个距离/不同矩阵D，包含的距离，每对对象的。 Dij是oi和oj之间的距离/不同之处。如何将这些对象分组，以便：组中每对对象之间的距离小于预定义的阈值。

浏览 6提问于2014-05-15得票数 4

1回答

如何利用相关系数矩阵进行聚类？

、、、、

我有一个相关系数矩阵(n*n)。如何利用相关系数矩阵进行聚类？我可以在SciPy中使用链接和fcluster函数吗？链接函数需要n * m矩阵(根据教程)，但我想使用n*n矩阵。我的代码是 corre = mp_N.corr() # mp_N is raw data (m*n matrix) Z = linkage(corre, method='average') # 'corre' is correlation coefficient matrix fcluster(Z,2,'distance') 这个密码对吗？如果代码错误，

浏览 2提问于2016-06-28得票数 9

1回答

R/rpy2中as.dist函数的内存问题

、、

我正在尝试使用自定义距离度量执行分层聚类。我在Python中执行所有计算，然后将数据结构传递给R进行聚类 import rpy2.robjects as robjects r=robjects.r from rpy2.robjects.packages import importr stats = importr('stats') m = r.matrix(robjects.FloatVector(list_of_data), ncol=size, byrow=True) dist_mat=stats.as_dist(m) hc=stats.hclust(new_dist_

浏览 1提问于2011-03-19得票数 1

回答已采纳

1回答

基于pearson相关的聚类

、、、、

我有一个用例，在这里，我每15分钟有一个月的流量数据。这些数据是为网络中的各种资源收集的。现在，我需要对类似的资源进行分组(基于00小时到23:45小时的流量使用模式)。检验两种资源是否具有相似流量行为的一种方法是，对所有资源使用Pearson相关系数，并创建N*N矩阵。我的问题是，我应该采用哪种方法来对类似的资源进行聚类？现有的K均值聚类方法都是基于欧氏距离的。基于模式相似性的聚类算法有哪些？任何想法或链接到可能的解决方案都是受欢迎的。我想使用Java实现。

浏览 6提问于2015-06-11得票数 1

回答已采纳

1回答

K表示矩阵上的聚类而不是数据。

、、、

在matlab中，我可以对数据矩阵进行聚类，例如 [centers, assignments] = vl_kmeans(da, 3); 矩阵"da“中的所有数据点将被划分为3个聚类。但是，与数据点不同，我想对完整的矩阵进行聚类。我有数以百计的128*19矩阵，我想把这些矩阵分成五个组。例如如果有11个矩阵如果128*19，在聚类之后，我应该能够找出： Cluster 1: 1, 7, 11 Cluster 2: 2,4,6,8,10 Cluster 3: 3,5,9 即中心1将返回矩阵号1,7,11 我如何在matlab中实现这一点？任何帮助/指针都是非常感谢的。 (这128*

浏览 3提问于2014-01-05得票数 1

回答已采纳

2回答

稀疏共生矩阵的聚类

、、、

我有两个N共现矩阵(484x484和1060x1060)，我必须加以分析。矩阵沿对角线对称，包含大量的零值。非零值是整数. 我想把非零的位置组合在一起。换句话说，我想做的是算法。当选择按簇排序时，矩阵将被重新排列成行和列，以便将非零值分组在一起。因为我使用Python来完成这个任务，所以我查看了库，但是找不到我要找的东西。任何帮助都是非常感谢的。提前谢谢。

浏览 10提问于2017-06-04得票数 5

回答已采纳

4回答

在scikit-learn中，DBSCAN可以使用稀疏矩阵吗？

、、、、

在运行scikit的dbscan算法时，我得到了内存错误。我的数据大约是20000*10000，它是一个二进制矩阵。 (可能不适合对这样的矩阵使用DBSCAN。我是机器学习的初学者。我只想找到一个不需要初始聚类编号的聚类方法) 无论如何，我找到了scikit的稀疏矩阵和特征提取。但我仍然不知道如何使用它。在DBSCAN的规范中，没有关于使用稀疏矩阵的指示。这是不允许的吗？如果有人知道如何在DBSCAN中使用稀疏矩阵，请告诉我。或者你可以告诉我一种更合适的聚类方法。

浏览 0提问于2013-04-19得票数 10

3回答

python中基于基因表达矩阵的层次聚类

、、、、

我如何在Python中进行分层聚类(在本例中是针对基因表达数据)，以显示基因表达值矩阵和树状图？我的意思是像下面这样的例子：在项目符号6(图1)之后显示，其中树状图绘制在基因表达矩阵的左侧，其中行已重新排序以反映聚类。如何在Python中使用numpy/scipy或其他工具执行此操作？另外，用欧几里德距离作为度量，用大约11,000个基因的矩阵来做这件事，在计算上可行吗？编辑:很多人建议使用聚类包，但我仍然不确定如何绘制上面在Python中链接的图像。例如，我如何使用Matplotlib将树状图覆盖在热图矩阵旁边？谢谢。

浏览 0提问于2010-06-05得票数 3

1回答

基于无监督降维的模糊聚类方法

、、、

无监督降维算法以矩阵NxC1为输入，其中N是输入向量的个数，C1是每个向量的分量数(向量的维数)。因此，它返回一个新的矩阵NxC2 (C2 < C1)，其中每个向量的分量较少。模糊聚类算法以矩阵N*C1为输入矩阵，其中N是输入向量的个数，C1是每个向量的分量数。因此，它返回一个新的矩阵NxC2 (C2通常低于C1)，其中每个向量的每个分量都指示向量属于相应的簇的程度。我注意到，这两类算法的输入和输出在结构上是相同的，只是对结果的解释发生了变化。此外，在scikit-learn中没有模糊聚类实现，因此出现了以下问题：使用降维算法进行模糊聚类有意义吗？例如，将或应用于从文本数据中提取的

浏览 2提问于2015-10-13得票数 3

回答已采纳

1回答

大数据集的python中的共识聚类

、、

我在python 中找到了一个非常好的共识聚类实现。然而，对于具有大样本大小的大数据集，该算法将不起作用，因为它使用维度样本、样本来构建矩阵。对于大型数据集上的共识聚类，有没有高效的python实现？

浏览 12提问于2021-03-07得票数 0

2回答

基于聚类的RGB图像分割

、、、

为了预处理目的，我想在数据集上应用一些分段。为了分割图像，我尝试了"otsu阈值“方法。这是一个很好的方法，然而，我认为聚类算法，如K-均值，可以更成功地进行基本的分割。下面是Otsu Thresholding的一些问题： 📷 正如您所看到的，在一些示例中，Otsu阈值处理可能会失败，就像在图片1中一样。我认为，采用像素化的定位方法和颜色阈值可以进一步提高效果。然而，我无法设法使用scikit-learn的KMeans函数来处理RGB图像，因为它是一个3通道的二维矩阵(基本上是3d矩阵)。如何将像素距离法和颜色聚类法与K均值聚类或相似方法结合起来？

浏览 0提问于2018-12-04得票数 1

回答已采纳

2回答

用weka聚类相互作用粒子

、、、、

我有一个聚类问题，可以这样总结：我在三维空间中有N个粒子每个粒子可以与不同数量的其他粒子相互作用。每一种互动都有一种力量我不知道集群的数量我没有倾斜的样本(应该是无人监督的) 输出:我想得到：集群数目每个粒子成为簇的一部分的概率(能够移除未明确分配的粒子)。我想直接从我的java代码调用集群程序。问题：哪一群人最适合我的问题？我应该如何格式化数据？应该使用三维定位信息作为交互信息的补充吗？如何才能得到每个粒子的结果？我对weka非常陌生，但从我在网上可以找到的信息来看： SOM能解决我的问题

浏览 9提问于2012-05-06得票数 2

回答已采纳

2回答

在scipy中计算成对距离时出现内存错误

、、、

我正在尝试对我的数据集应用分层聚类，该数据集由14039个用户向量组成。每个向量有10个特征，其中每个特征基本上是该用户标记的标签的频率。我正在使用Scipy api进行集群。现在我需要计算这14039个用户之间的成对距离，并将距离矩阵传递给链接函数。 import scipy.cluster.hierarchy as sch Y = sch.distance.pdist( allUserVector,'cosine') set_printoptions(threshold='nan') print Y 但是我的程序在计算距离矩阵本身的时候给出了

浏览 0提问于2012-04-12得票数 6

回答已采纳

2回答

在python中将层次聚类的结果绘制在数据矩阵的顶部

、、、、

在Python中，如何将树状图绘制在值矩阵的顶部，并适当地重新排序以反映聚类？下面是一个示例：我使用scipy.cluster.dendrogram制作树状图，并对数据矩阵执行分层聚类。那么，我如何将数据绘制为矩阵，其中行已被重新排序，以反映在特定阈值下切割树状图所导致的聚类，并使树状图与矩阵一起绘制？我知道如何在scipy中绘制树状图，但不知道如何绘制数据的强度矩阵，并在其旁边使用正确的标尺。在这方面的任何帮助都将非常感谢。

浏览 5提问于2010-06-06得票数 51

回答已采纳

1回答

亲和(邻接)矩阵的可视化

、、、、

我根据图像上相邻超像素的相似性构造了一个图，并计算了其对应的邻接(亲和)矩阵。我看到了几个可视化矩阵的，如下图所示。这是某种类型的聚类吗?如何在MATLAB中生成这样的表示？有什么特定的功能或方法吗？更新(发现)：正如@Yuval所建议的那样，是某种类型的谱聚类，并且有一个特定的。现在的问题是如何表示类似OP的谱聚类结果。

浏览 6提问于2019-12-14得票数 1

回答已采纳

4回答

数以百万计的高维数据的聚类

、、

我有一组5000万个文本片段，我想从它们中创建一些集群。维度可能在60k-100k之间。文本片段的平均长度为16个单词。正如你可以想象的，频率矩阵将是相当稀疏的。我正在寻找一个软件包/ libray / sdk，可以让我找到这些集群。我曾经尝试过CLUTO，但这对CLUTO来说似乎是一项非常繁重的任务。从我的在线研究中，我发现BIRCH是一种可以处理这类问题的算法，但不幸的是，我在网上找不到任何BIRCH实现软件(我只找到了几个特别的实现，比如分配项目，缺乏任何类型的文档)。有什么建议吗？

浏览 3提问于2011-09-15得票数 3

1回答

如何使用H2o Python获取分类的最佳阈值

、、、

我在Python语言中有一个使用H2o的分类模型，它的AUC = 71% 但基于混淆矩阵的分类准确率仅为61%。我知道混淆矩阵是基于.5阈值的我如何确定哪个阈值的准确率为71%？

浏览 17提问于2020-06-02得票数 0

回答已采纳

1回答

建立距离矩阵或重复计算距离

、、

我正在研究实现。它是一种聚类算法，其步骤之一是在集群中找到最具代表性的点。所以，事情是这样的我有一定数量的集群每个集群包含一定数量的点数。如果选择一个集群代表，我需要在每个集群中找出错误最少的点。需要计算从每个点到集群中所有其他点的距离。这种距离计算可以是简单的欧几里德，也可以是更复杂的，如DTW (动态时间翘曲)在两个信号之间。有两种方法，一种是计算距离矩阵来保存数据集中所有点之间的值，另一种是在聚类过程中计算距离，这样就会重复计算某些点之间的距离。一方面，要构建距离矩阵，必须计算整个数据集中所有点之间的距离，并且将永远不会使用某些计算值。另一方

浏览 3提问于2015-01-20得票数 12

回答已采纳

3回答

基于距离矩阵的词聚类

、、、

我的目标是根据单词与文本文档语料库的相似度对单词进行聚类。我已经计算了每对单词之间的Jaccard相似度。换句话说，我有一个可用的稀疏距离矩阵。有没有人能给我介绍一些以距离矩阵作为输入的聚类算法(可能还有它的Python库)？我事先也不知道集群的数量。我只想对这些单词进行聚类，并获得哪些单词聚在一起。

浏览 0提问于2013-04-27得票数 24

3回答

不同大小的聚类邻接矩阵

、、、

我已经为不同大小的有向图创建了邻接矩阵。我有大约30,000个矩阵，每个矩阵都在一个单独的文本文件中。我如何对它们进行集群，是否有可用的工具。表示集群的有向图的最佳方式是什么？谢谢。

浏览 0提问于2011-12-06得票数 2

1回答

有哪些方法可以评估聚类的相似性？

、、、

假设我有两种方法对同一数据集进行聚类，并希望计算它们输出的相似度。我将不得不计算一些类似于相关性的东西，但集群标签是一个分类变量。我考虑过使用卡方，但当列联表中的多个单元格<5时，不建议使用卡方(当聚类非常相似时，这将经常发生)。另一个线索是使用Fisher的精确测试，但Python scipy实现只适用于2x2的列联式矩阵，我可能会使用更大的矩阵(例如10x10或8x6 )。有没有以这种方式比较集群的其他既定方法？有没有它们的Python实现？

浏览 32提问于2020-03-30得票数 0

2回答

超大型(n=140000)二进制数据集聚类分析技术？

、、、

本质上: Python中有哪些技术可以在非常大的分类数据集中找到集群/趋势？我的非常大的数据集(140000行/观测，80个变量)已经用一个热编码重新编码，所以它们都是二进制的(例如ethnicity_black、ethnicity_asian)。此数据集用于英国警方使用武力的案例。我计划对其进行聚集性的分层聚类，以便在使用强制事件时找到模式(通过集群描述)，但我无法做到这一点，因为距离矩阵总是太大，并且不断崩溃。我使用了gower的距离，因为它们都是虚拟变量，以及gower包。我尝试通过MCA进行降维(比如PCA，但对于分类变量)，但这只是减少了列的数量，而且距离矩阵仍然太大(1400

浏览 0提问于2020-05-04得票数 2

1回答

应用KMeans算法后的混淆矩阵维数

、、、

我正在用Python开发一个代码，将KMeans聚类算法应用于数据集。我初始化的簇数为5，但在应用该算法并进行预测之后，我很想看到混淆矩阵，以检查算法的执行情况。我的期望是得到一个5×5混淆矩阵，而不是10×10矩阵，其中最后5列包含0值。下面是代码和混淆矩阵。我做错了什么？如何得到一个5X5矩阵，根据我的集群数目初始化？ `kmeans = KMeans(init = "random", n_clusters = 5, n_init = 5) kmeans.fit(PCA_30) predicted_labels = kmeans.predict(PCA_30 print(m

浏览 0提问于2018-03-21得票数 0

1回答

两个集群Python的t-测试

、、

我做的是k均值聚类，并想测试得到的聚类结果在统计上是不同的。在3级集群中，我使用集群1测试集群0，然后使用集群2测试集群2，然后尝试应用t测试集群，如下面的代码所示。如你所知，星系团有不同的长度。我对逻辑感到困惑吗？我应该使用p>0.05还是p<0.05。那么把真假放在哪里呢？ def compare_2_groups(ar1,ar2): s,p=ttest_ind(ar1,ar2) #if p>0.05: if p<0.05: return False else: return True

浏览 4提问于2021-12-08得票数 0

回答已采纳

2回答

R中的簇二进制矩阵

、

我有一个两个变量之间的二进制矩阵。我想知道是否有一种方法可以对R中的二进制矩阵进行聚类。如果有，我应该使用哪种算法？矩阵如下所示 hobby1 hobby2 hobby3 hobby4 person1 1 0 0 1 person2 0 1 0 1 person3 1 1 1 0 person4 0 1 1 1 因此，根据他们最常见的爱好对这些人进行聚类。做这件事最好的方法是什么？谢谢

浏览 1提问于2013-12-12得票数 2

4回答

在Python中对大约100,000个短字符串进行聚类

、、、

我想通过q-gram距离或简单的"bag距离“或Python中的Levenshtein距离来聚类大约100,000个短字符串。我计划填写一个距离矩阵(100,000选择2个比较)，然后使用进行分层聚类。但我还没上路就遇到了一些记忆问题。例如，距离矩阵对于numpy来说太大了。 aa = numpy.zeros((100000, 100000)) ValueError: array is too big. 这看起来是合理的做法吗？或者，在这个任务中，我注定会出现内存问题？谢谢你的帮助。

浏览 8提问于2010-11-22得票数 15

3回答

RTS中单元组的确定方法

、、

寻找一种算法，可以用来确定在像StarCraft这样的实时战略游戏中作为一个小队一起移动的单元组。我目前关注的方向是聚类算法，但很难找到哪种算法工作得最好，因为单元是作为一个组移动的，而不仅仅是静止不动。任何帮助都是最好的。

浏览 0提问于2011-11-22得票数 3

1回答

释放内存:观察者模式？

、

我在matlab中建立了一个科学的应用程序，它处理数百个大型矩阵(很大，因为“很少有这些矩阵适合于ram”)。每个矩阵都包含在一个专用对象中，以处理其元数据(属性名为.data)。我使用getter方法在需要时立即将数据从文件加载到ram中。如何决定何时卸载？大多数对对象数据的访问都会捆绑在一起，因此我不想每次获取数据时都卸载。此外，我可能需要比其他人多使用一两次。我不认为我可以在每个对象中解决这个问题，所以我认为我可以实现一个公共函数来清除ram中的矩阵，这个函数由外部对象调用，它决定什么时候(可能的话)对象太多了。这是有意义的，还是它是一个灾难的配方？作为观察员，这算不算，还是还有什

浏览 0提问于2014-07-04得票数 1

1回答

共识聚类:如何根据共识矩阵选择最终的聚类？

、

我一直在阅读这文章中关于协商一致聚类和协商一致矩阵的内容。我理解在对数据的某些部分进行重新采样和聚类H次之后，如何建立共识矩阵。我了解到，协商一致矩阵用于确定簇(k)的最佳数量，并允许生成一个很好的热图。我不明白的是，这个协商一致的矩阵是如何导致最终的聚类的。假设我有一个协商一致矩阵4*4 (因此我们有4项要聚类)，其中矩阵中0到1之间的每个值表示将项目i和j分配到同一个集群的次数，除以两个项被选择进行聚类的总次数。经过4次迭代80%的子样本(取自这里)，我们可以得到以下的一致性矩阵。我们跟踪了在获得这一协商一致矩阵的过程中形成的所有4组。我们如何根据这个共识矩阵选择最终的聚类？ 📷

浏览 0提问于2021-02-26得票数 0

3回答

快速/内存保存方式，如果矢量在欧几里得空间太近，就可以从阵列中删除它们。

、、、、

为了使聚类成为一项更可行的任务，如果数组中有另一项在n维欧氏空间中的阈值以内，我希望将它们从数组中删除。这种截断的输入数据是一个按像素方向的特征向量数组。我的第一个想法是计算所有项目之间的成对欧几里德距离矩阵，然后对它们进行如下操作： indices = list(range(len(X))) dist_matrix = euclidean_distances(X,X) index = 0 while True: deletion = np.where(dist_matrix[index]<=threshold)[0] indices = [i for i in ind

浏览 3提问于2016-08-24得票数 0

回答已采纳

1回答

从word2vec模型中提取距离矩阵和特征矩阵

、、、

我已经为一个巨大的语料库生成了一个使用gensim的word2vec模型，并且我需要使用k均值聚类来对词汇表进行聚类，我需要：余弦距离矩阵(字对字，所以矩阵的大小为number_of_words x number_of_words ) 特征矩阵(word表示特征，因此矩阵的大小是number_of_words x number_of_features(200) ) 对于特征矩阵，我尝试使用x=model.wv，得到对象类型为gensim.models.keyedvectors.KeyedVectors，它比我预期的要小得多。有没有一种直接使用这个对象来生成k均值聚类的方法？

浏览 7提问于2017-07-24得票数 0

7回答

具有未知聚类数的配对距离的聚类？

、、

我有一组对象{obj1, obj2, obj3, ..., objn}。我计算了所有可能对的成对距离。距离存储在n*n矩阵M中，Mij是obji和objj之间的距离。然后自然地看到M是一个对称矩阵。现在，我希望对这些对象执行无监督的聚类。经过一些搜索，我发现可能是一个很好的候选，因为它处理这样的配对距离的情况。但是，在仔细阅读了它的描述之后，我发现它在我的例子中不合适，因为需要将集群的数量作为输入。在聚类之前，我不知道集群的数量。在执行聚类时，它必须由算法计算出来，比如DBSCAN。考虑到这些，请给我一些适合我的情况的聚类方法，，在成对距离都是可用的。簇的数目是未知的。

浏览 1提问于2013-09-20得票数 10

回答已采纳

3回答

以距离矩阵为输入的聚类[评估]算法

、、

有没有人能推荐一些可以使用距离矩阵作为输入的聚类算法？或者也可以基于距离矩阵来评估聚类的“好坏”的算法？目前，我使用的是对Kruskal算法()的修改，将数据分成两个集群。不过，它有一个问题。当数据没有不同的聚类时，算法仍然会创建两个聚类，一个聚类包含一个元素，另一个包含所有其他元素。在这种情况下，我宁愿有一个包含所有元素的集群，而另一个集群是空的。有没有能够进行这种类型的聚类的算法？有没有什么算法可以估计聚类完成得有多好，或者更好地估计数据中有多少聚类？算法应该只使用距离(相似性)矩阵作为输入。

浏览 0提问于2010-05-31得票数 0

回答已采纳

3回答

文档聚类的第一步的选项

、、、

我检查了几种文档聚类算法，如LSA、pLSA、LDA等，它们似乎都需要将待聚类的文档表示为文档-单词矩阵，其中行表示文档，列表示文档中出现的单词。而且矩阵通常是非常稀疏的。我想知道，除了使用文档-单词矩阵之外，还有没有其他选择来表示文档？因为我相信我们表达问题的方式对我们解决问题的能力有很大的影响。

浏览 1提问于2014-02-11得票数 1

1回答

利用距离矩阵对聚类进行聚类，如何提取原始对象

、、

我无法在can中找到任何关于集群的足够简单的教程或描述，所以我将尝试解释我的问题：我尝试对文档进行聚类(层次聚集聚类)，并为每个文档创建了一个向量，并生成了一个对称距离矩阵。vector_list包含(非常长)表示每个文档的向量。这个向量列表的顺序与我的输入文档列表相同，这样我(希望)能够(希望)能够将集群的结果与相应的文档匹配。 distances = distance.cdist(vector_list, vector_list, 'euclidean') 这给出了这样一个矩阵，其中对角线是每个文档到自己的距离(总是0)。 [0 5 4] [5 0 4] [5 4 0]

浏览 2提问于2011-10-11得票数 6

回答已采纳

1回答

一个大亲和力矩阵与sklearn谱聚类

、、、、

我试图使用提供的谱聚类方法来聚合数据集的行(仅为 16000)。我的问题出现在我预先计算了多少分配了3G的关联矩阵( 16000x16000浮点数)之后(最多可以达到8GB)，使用argpack求解器调用该矩阵的方法需要更多的内存，cpu在内存中和内存外交换东西的时间太长，以至于计算速度减慢到死亡。我还尝试在方法之前调用垃圾收集器，但没有成功： import gc gc.collect() 我怎样才能得到正在发生的事情的确切方案？这是众所周知的问题吗？在python中是否有任何替代方案可以直接执行光谱聚类？如果需要的话，我可以发布一个最小的工作示例。 UPDATE I关于5Gb解决程序的问题

浏览 3提问于2014-09-19得票数 2

2回答

基于相似性度量的图像聚类

、、、、

我正在尝试使用科学知识-学习和比辛对一组图像进行聚类-不到100。最终的目标是根据计算出的相似性度量- CW-SSIM将图像放入几个桶(簇)中。这个任务似乎很琐碎，但我无法找到最好的方法来处理基于相似性的集群，在scikit中学习。K-表示聚类看起来是个不错的选择，但它不接受任何“比较函数”或自定义距离函数。那么如何处理科学学习中基于比较(基于相似性)的聚类呢？我在考虑“比较矩阵”，根据计算出的CW-SSIM相似值，每个单元格有1(相似)或0(不相似)。该矩阵将用于拟合K-均值聚类。但是接下来我们将面临可伸缩性问题，因为这样的矩阵的维数将等于图像的数量.未来可能会增长到1+百万。如果

浏览 0提问于2016-01-10得票数 8

1回答

WEKA如何评估星系团？

、、、

嗨，在链接中找到了这个解释：使用培训集(默认)。生成聚类后的Weka 将训练实例分类为按集群表示并计算实例的百分比。在每个星系团中坠落。在所提供的测试集或百分比split中可以评估如果聚类表示是概率的(例如，对于EM)，则对单独的测试数据进行聚类。类到集群评估。在这种模式下，Weka首先会忽略类属性并生成集群。然后在它根据每个集群中类属性的大多数值将类分配给集群的测试阶段。在此基础上计算分类误差，并给出相应的混淆矩阵。一个例子对于k-均值，如下所示。但是，我不清楚WEKA是如何对集群中的一个新实例进行分类的，以及它如何度量是否应该将该实例分类到该集群中。

浏览 0提问于2018-11-29得票数 1

1回答

如何应用自适应模式生成

、、、

其中一篇关于运动物体提取方法的定义如下：提出的基于FLD的径向基函数算法通过感知的三个变量在YCbCr颜色空间中建立输入，为许多数字视频应用提供支持。这些变量是亮度(Y)、蓝差色度(Cb)和红差色度(Cr).因此，像素pt(x；y)的颜色元素一起使用Y、Cb和Cr值来表示每个传入视频帧中每个像素的强度和颜色。为了提供可变比特率视频流特性，有必要生成低维鉴别模式。这是通过使用最优投影向量通过FLD技术从进入帧的连续流入在鉴别模式提取操作中实现的。通过使类间散射和类内散射32、33的比率最大化的过程获得最优投影向量。该方法将每个传入帧分成N个块，kth块xk属于ith类。让类间散射矩阵确定如下

浏览 2提问于2014-02-13得票数 1

回答已采纳

3回答

python中的谱聚类图

、、、、

我想使用谱聚类在python中对图进行聚类。谱聚类是一种更通用的聚类技术，它不仅适用于图形，也适用于图像或任何类型的数据，但它被认为是一种特殊的图聚类技术。遗憾的是，我在python网上找不到谱聚类图的例子。 Scikit学习有两种光谱聚类方法：和，它们似乎不是别名。这两种方法都提到，它们可以用于图表，但没有提供具体的说明。。我有，但他们工作过度，还没有达到目的。是一个很好的网络来记录这一点。它包括了。我很想在这方面有个方向。如果有人能帮我解决这个问题，我可以将文档添加到scikit学习中。备注：。

浏览 9提问于2017-09-16得票数 33

回答已采纳

1回答

如何将几条线紧密地融合在一起？

、、

我在努力完成我的项目中的一项任务。我的任务是在无人机拍摄的图像中检测太阳能电池板的边界，以进一步检测太阳能电池板本身。因此，首先，我尝试使用HoughP绘制图像中的所有水平线，条件是斜率~0，这是结果(发现的线条以红色显示)：正如你所看到的，有几条虚假的线条。从这一点开始，我需要过滤掉所有这些假线，得到唯一代表这些太阳能电池板边框的线，像这样：实际上，我从一份研究文件中读到，他们使用分层聚类算法将所有直线在一定距离内融合在一起我了解了这种分层聚类算法，问题是，我不知道如何将这个算法应用于线性线，以及如何将几条线“融合”成一条线。有人能指点我吗。

浏览 2提问于2020-08-03得票数 0

回答已采纳

1回答

显示分水岭算法的分割

、、、、

我是Opencv的新手，我最近一直在使用分水岭算法，目前我试图使用不同的颜色标记来分割图像，但我也想显示这些图像片段。有没有什么方法可以做到这一点，就像我们在使用简单线性迭代聚类函数和标记边界函数的简单线性迭代聚类超像素分割中所做的那样使用Opencv和python。谢谢。

浏览 4提问于2018-05-16得票数 1

1回答

以一致性矩阵为相似矩阵的层次聚类

、、

我正在关注关于programming中的共识集群的这文章。在第7页中，作者指出：“协商一致矩阵很自然地被用作可视化工具，以帮助评估集群的组成和数量。特别是，如果我们将颜色梯度与0-1的实数范围相关联，使白色对应于0，而暗红色对应于1，如果我们假定矩阵的排列使属于同一集群的项目彼此相邻(使用相同的项目顺序来索引矩阵的行和列)，那么对应于完美一致性的矩阵将在白色背景上显示为以红色块沿对角线描述的颜色编码热图。 📷 一致性矩阵本身是一个(N×N)矩阵，它存储每对项目的聚类比例，其中两个项目聚在一起。通过取每个扰动数据集连通性矩阵的平均值，得到一致性矩阵。为了从一致矩阵到可视化，作者指出：“我们可以利

浏览 0提问于2021-02-27得票数 1

1回答

哪种聚类算法可以与Word Mover与M. Kusner的论文的距离一起使用？

、、

我是机器学习的新手，现在我对文档聚类(不同长度的短文本)感兴趣，因为它们的语义相似(我只想超越标准的TF/下手方法)。我阅读了的论文，其中解释了单词移动器对单词嵌入的距离。在论文中，他们用它来分类。我现在的问题是-我能用它进行聚类吗？如果是的话，是否有这样的用纸？ P.S.：我基本上对考虑到语义相似性的聚类感兴趣，所以即使是word2vec或doc2vec方法也能完成这一任务--我只是找不到在聚类问题中使用它们的任何论文。

浏览 0提问于2018-04-04得票数 0

回答已采纳

1回答

基于距离的聚类

、

这是我的问题:我有一个村庄列表。对于每个村庄，我计算了它们之间的路径距离，并准备了一个距离矩阵。现在，我想确定彼此靠近的村庄集群。我使用的是Python2.7，并且我已经使用了层次聚类(由scypy提供)来聚类距离矩阵。通过将其视为人类，我可以识别最近的村庄，但我需要将其自动化。我需要获取属于每个集群的元素。

浏览 1提问于2013-08-05得票数 2

1回答

贝叶斯层次聚类

您知道我们是否可以在具有浮点值的向量上实现贝叶斯层次聚类(python或R)？我在网上搜索过，只找到了一些值为0,1,2的随机矩阵，在相关的论文中没有提到。我也尝试用R实现它，它返回了一个致命的错误，RGui和RGui突然关闭了，我不确定是不是因为浮点值的原因。

浏览 4提问于2020-01-21得票数 0

2回答

在python中聚集巨大的数据矩阵？

、、、、

我想把一百五十万种化合物聚在一起。这意味着有1.5×150万的距离矩阵. 我认为我可以使用pyTables生成这么大的表，但是现在有了这样的表，我将如何对其进行集群呢？我想我不能把pyTables对象传递给一种学习聚类的方法. 是否有任何基于python的框架会占用我的大型表，并使用它做一些有用的事情(lie聚类)？也许是以分布式的方式？

浏览 1提问于2014-01-15得票数 1

回答已采纳