腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
视频
沙龙
1
回答
聚类最小生成树的数据集
、
、
、
最近我遇到了最小生成树的概念,发现它在聚类中有一个应用程序。我正在寻找一个真实的数据集(最好是干净的),它可以作为各种聚类算法的数据源。有一种信息表明,MST聚类在球面和非球面数据上工作得足够好。这就是为什么非球面数据集也被追求的原因。 我心目中的数据集应该包含地面真相信息(标签),因此各种标志的有效性可以通过与WSS不同的东西来衡量。
浏览 1
提问于2018-06-12
得票数 0
回答已采纳
1
回答
完全图上的MST对它们进行聚类(因为余弦相似)
、
、
、
我需要根据它们的余弦相似性来聚类(假设作为参数k),单词(我存储在数组列表中)。我已经将我所有的单词作为顶点存储在一个完整的、加权的、无向图(使用邻接列表)中,并将它们的余弦相似度值放在边上。据我所知,我需要使用MST (Kruskals算法)进行聚类处理。 然而,由于我的图是完全图,而MST用于连通图,我有点困惑如何在完全图上使用它?还是我用完全图做错了? 这是我的wordList: [directors, producers, film, movie, black, white, man, woman, person, man, young, woman, science, fictio
浏览 2
提问于2018-04-28
得票数 0
回答已采纳
2
回答
分层聚类启发式算法
、
、
、
、
我想探讨大数组中数据项之间的关系。用多维向量表示的每个数据项。首先,我决定使用集群化。我感兴趣的是找到集群(数据向量组)之间的层次关系。我能计算出向量之间的距离。因此,在第一步,我找到最小生成树。在此之后,我需要根据生成树中的链接对数据向量进行分组。但在这一步,我感到不安--如何将不同的向量组合成层次化的集群?--我正在使用启发式方法:如果两个向量连接在一起,它们之间的距离非常小--这意味着它们在同一个集群中--如果两个向量连接在一起,但它们之间的距离大于阈值--这意味着它们在具有公共根簇的不同集群中。 但也许有更好的解决方案? 谢谢 P.S.感谢大家! 事实上,我试过使用k-均值和CLOPE
浏览 2
提问于2011-07-10
得票数 4
回答已采纳
1
回答
好友聚类算法(Python)
、
、
、
、
我想在Python中实现一个“朋友中的朋友”算法,在这个算法中,对于N维空间中的一组点(在我的例子中,是二维的),如果两个点比给定的链接长度更近,就称为“朋友”,而一个朋友的朋友也是一个朋友(如果A是B和B的朋友,A也是C的朋友)。然后,将其中所有的朋友点集合成一个聚类,最终形成若干簇。其动机是,我通常有很强的聚类点,不同的聚类距离很远。我想在距离计算中允许任意度量(即不一定是欧几里得度量)。 我可以从头开始写下来,但我想知道它是否可以使用现有的库或一些基于智能数组的Python轻松地实现。
浏览 3
提问于2022-02-16
得票数 0
回答已采纳
3
回答
词汇树在OpenCV中的实现
、
、
、
我正在尝试实现基于论文"Scalable Recognition with a Vocabulary“的图像搜索。我使用SURF来提取特征和关键点。例如,对于一个图像,我得到300个关键点,每个关键点有128个描述符值。我的问题是如何在数据上应用K-Means聚类算法。我的意思是,我是否需要对所有的点应用聚类算法,即300*128个值,或者我是否需要找到连续描述符值之间的距离并存储这些值并对其应用聚类算法。我很困惑,任何帮助都将不胜感激。 谢谢,洛奇。
浏览 0
提问于2011-04-30
得票数 4
3
回答
新闻文章聚类
、
、
、
、
我的场景非常简单:我有一堆新闻文章(目前约1k篇),我知道其中一些报道了相同的故事/主题。我现在想根据共享的故事/主题对这些文章进行分组,即基于它们的相似性。 到目前为止,我所做的是应用基本的NLP技术,包括去停用词和词干提取。我还计算了每一篇文章的tf-idf向量,并可以根据这些tf-idf向量计算余弦相似度。但现在,随着文章的分组,我有点挣扎了。我看到了两种主要的方法--可能是相关的--来做到这一点: 1)机器学习/集群:我已经使用了一些现有的集群库,或多或少取得了成功;请参阅。一方面,像k-means这样的算法需要输入聚类的数量,我不知道。其他算法需要的参数也不是很直观(对我来说是这样)
浏览 1
提问于2014-08-10
得票数 14
1
回答
文本的分层聚类,按比例排列
、
、
我有一个很大的数据集(数十亿条记录),它几乎完全由分类变量组成。这些数据将被用来预测一个相当罕见的数值结果。大多数属性都具有很高的基数:可能只有少数几个样本属于每个类别。 我阅读了,其中他们使用R中的分层聚类来降低类似任务的维数。以下代码用于小型数据集,但在扩展时会迅速消耗所有内存: library(cluster) numClusters = 42 hc <- hclust(daisy(df)) cutree(hc, k = numClusters) 我考虑过使用Mahout的kmeans实现,但这对于分类变量来说是行不通的,因为它需要一个双倍向量。 StackOverflow社区中有
浏览 3
提问于2015-06-25
得票数 0
回答已采纳
3
回答
不同大小的聚类邻接矩阵
、
、
、
我已经为不同大小的有向图创建了邻接矩阵。我有大约30,000个矩阵,每个矩阵都在一个单独的文本文件中。我如何对它们进行集群,是否有可用的工具。表示集群的有向图的最佳方式是什么? 谢谢。
浏览 0
提问于2011-12-06
得票数 2
1
回答
MST:反向删除算法
、
反向删除算法:从包含所有边的图开始。然后按权重的递减顺序重复通过边缘。对于每条边,检查删除该边是否会断开该图的连接;如果不会,则删除它。 如何证明此算法计算MST?
浏览 3
提问于2020-03-27
得票数 0
1
回答
在scikit-learn中如何使用KDE (核密度估计)进行一维数组聚类?
、
、
、
我读了几篇关于一维阵列聚类的文章,其中有人说聚类不适合一维阵列,应该使用核密度估计。然而,没有人解释如何使用kde准确地执行聚类,如何检索输入数据的聚类标签? 在scikit-learn中,我得到了单变量(一维)数据的核密度估计。 kde = KernelDensity(kernel='gaussian', bandwidth=0.75).fit(features) 现在如何将其用于集群,即如何检索输入数据的集群标签? 我在考虑两种可能的方法: a)使用kde为一些聚类估计器(例如kmeans)获取新的2D输入数据。我想以直方图(值,频率)的形式检索2D数据数组,但我不知道如何
浏览 3
提问于2016-06-14
得票数 0
3
回答
Matlab: Kmeans每次给出不同的结果
、
、
我在matlab中对400x1000矩阵运行kmeans,由于某种原因,每当我运行该算法时,我都会得到不同的结果。下面是一个代码示例: [idx, ~, ~, ~] = kmeans(factor_matrix, 10, 'dist','sqeuclidean','replicates',20); 出于某种原因,我每次运行这段代码都会得到不同的结果?有什么想法吗? 我正在使用它来识别多重共线性问题。 谢谢你的帮助!
浏览 2
提问于2012-08-27
得票数 8
1
回答
OpenCV中的分层聚类
、
我需要在OpenCV中使用聚集层次聚类。当我搜索文档时,我发现了以下函数。但它使用了等级k-方法。K-均值是一种不同的技术。在理论上,我们研究了这两种不同的聚类技术。分层k-的意思与层次聚类有何不同? 我需要在图像中聚集一些特定的空间位置。结果用于某些对象的识别。
浏览 1
提问于2015-02-23
得票数 3
回答已采纳
4
回答
数以百万计的高维数据的聚类
、
、
我有一组5000万个文本片段,我想从它们中创建一些集群。维度可能在60k-100k之间。文本片段的平均长度为16个单词。正如你可以想象的,频率矩阵将是相当稀疏的。我正在寻找一个软件包/ libray / sdk,可以让我找到这些集群。我曾经尝试过CLUTO,但这对CLUTO来说似乎是一项非常繁重的任务。从我的在线研究中,我发现BIRCH是一种可以处理这类问题的算法,但不幸的是,我在网上找不到任何BIRCH实现软件(我只找到了几个特别的实现,比如分配项目,缺乏任何类型的文档)。有什么建议吗?
浏览 3
提问于2011-09-15
得票数 3
2
回答
按距离聚类
、
我正在做一个将与位置相关的数据作为输入的项目(例如,某个x,y坐标下的某个信号振幅)。我尝试通过距离对它们进行聚类,这意味着在被视为新的聚类之前,所获得的聚类至少彼此之间有一定的距离。也就是说,永远不会有质心彼此小于一定距离的集群。 我的问题是,对于这样的算法,是否有人可以为我指出正确的方向?我尝试过K-Means,但它似乎只是简单地按指定的K个聚类进行排序,而不是按距离排序。
浏览 0
提问于2015-10-13
得票数 0
1
回答
在Weka中,基于密度的集群是做什么的?
、
、
、
、
在Weka中,有一个名为基于Make密度的集群的聚类算法。当查看它的属性时,它以一个集群器作为基础集群器(我把它作为k=3的K-means )。它最初执行k-方法并创建三个集群。我在结果缓冲区中看到了每个集群和属性的先验概率、正态分布方法和标准差。 在计算k-均值星团之后会发生什么?在这里,标准偏差和先验概率的作用是什么?为什么它是基于密度的?
浏览 0
提问于2019-03-15
得票数 1
2
回答
如何根据文档的相似性度量对文档进行聚类?
、
我阅读了关于这个主题的文章,比如如何根据文档的相似性对文档进行集群。但我还是不明白它是如何实现的。我的测试是,我有10个文档的cos相似性度量。以下是一些: D1 D2 sim(D1,D2) d1 d10 0.6823 d1 d2 0.6377 d1 d8 0.0307 d1 d9 0.0294 d1 d7 0.0284 d1 d3 0.0234 d1 d4 0.0199 d1 d6 0.0110 d1 d5 0.0030 d10 d2 0.7232 d10 d3 0.3898 d10 d4 0.3054 d10 d9
浏览 2
提问于2015-02-15
得票数 1
回答已采纳
3
回答
限制最大大小的群集
、
、
我想聚类一些数据点,但每个聚类的最大点数是有限的。因此,每个集群都有一个最大大小。有没有什么聚类算法可以解决这个问题?我也可以定义自己的大小函数。例如,我不想将集群中的点的数量作为其大小,而是希望对集群中的所有点的列求和。
浏览 0
提问于2012-07-20
得票数 3
1
回答
有没有MATLAB的等价物?
、
嗨,我正在寻找曲线图,可能有类似的MATLAB来计算常见的网络参数,如聚类系数,谢谢
浏览 3
提问于2011-04-17
得票数 2
回答已采纳
1
回答
聚类算法中最重要和最不重要的特征
、
、
我正在试验聚类算法,比如K-均值。现在,我使用所有变量作为聚类算法的输入。我想知道是否适合对聚类算法进行特征选择。也就是说,如何找到那些对集群最重要或最不重要的变量。 对于我知道真正的聚类是什么的情况,我的想法是使用不断增加的变量组合子集作为聚类算法的输入,计算预测组和真实组之间的关联表,应用一些度量(比如准确性)来找到得分最差或最好的特征组合。 您知道在应用聚类算法(如k-均值)之后,获得最小和最重要特征的方法吗? 我是这个话题的新手,所以请友好一点。:-)
浏览 0
提问于2021-10-16
得票数 0
4
回答
光学聚类算法如何获得最好的epsilon
、
、
、
、
我正在执行一个需要将地理点聚在一起的项目。光学算法似乎是一个很好的解决方案。它只需要两个输入参数(MinPts和Epsilon),它们分别是将它们视为一个簇所需的最小点数,以及用于比较两个点在同一簇中的距离值。 我的问题是,由于点的极端多样性,我不能设置一个固定的epsilon。看看下面的图片。 相同的点结构,但在不同的尺度下,会产生非常不同的结果。假设设置MinPts=2和epsilon =1公里。在左边,算法将创建两个簇(红色和蓝色),但在右边,它将创建一个包含所有点(红色)的单个集群,但我想获得两个集群,甚至在右边。 所以我的问题是:有什么方法可以动态地计算epsilon值来得
浏览 0
提问于2012-06-04
得票数 6
回答已采纳
1
回答
分析手机的使用情况。我应该采用什么样的方法?
、
我需要分析移动电话使用数据集(# cell,#sms,#internetConnections)在不同的日子里每个单元格和时间。 [date] [CDR/Position] [#calls] [#sms] [#internetConnections] 我的目的是检测数据中的相似之处(星期一到星期二相似).或者星期一晚上就不一样了。在此之后,我想找出他们相似/不相似的原因。 我能申请什么?
浏览 0
提问于2014-11-11
得票数 3
1
回答
当使用Apache Mahout时,Hadoop是否必须安装?
Apache mahout在没有Hadoop的情况下工作吗?如果不是这样的话,那么mahout的哪些部分依赖于Hadoop。我正在尝试Mahout集群实现。 谢谢。沙希德。
浏览 4
提问于2014-06-11
得票数 0
回答已采纳
1
回答
K-表示输出不像预期的那样出现。
、
、
我试图对我的数据进行聚类。我的目标是对这些数据进行聚类,以确定客户的类型是B2B还是B2C,有规则: 如果是高B2Bif,高number_of_invoice和低avg_top,那么是B2Bif,低number_of_invoice,高avg_top,然后是B2Cif,低number_of_invoice和高avg_top,那么就是B2C。 我已经删除了离群点,分布如下 。 我以为它会像这样分开 这是集群输出。 我已经测量了Silhoutte Score,分数是0.677,有没有办法像我预期的那样实现星系团的分离?
浏览 2
提问于2021-02-01
得票数 1
5
回答
高维数据聚类
、
、
、
为了对超过100维(有时甚至1000维)的数据进行聚类,最好的聚类算法是什么?如果你知道任何C,C++,尤其是C#的实现,我将不胜感激。
浏览 1
提问于2011-11-20
得票数 0
回答已采纳
1
回答
路径发现与聚类
、
、
对于一个任务,我需要实现一个A*算法,以便使用不同的启发式方法在两个对象之间找到最短路径 null,这实际上变成了Dijkstra。 欧氏距离 聚类 因此,我成功地实现了A*算法和前两个启发式算法,它们工作得非常好。然而,第三个启发我有困难。根据课文 集群启发式是通过将节点分组在集群中来实现的。集群中的节点表示高度互联的某个级别的区域。当游戏中调用启发式时,可以使用超出本书范围的图聚类算法自动完成聚类,如果开始节点和目标节点位于同一簇中,则使用欧几里得距离(或其他回退)来提供结果。否则,估计数将在表中查找。 📷 我不是一个放弃挑战的人,所以我想实现一些自动集群技术。我很懒,我真的不想手动集群节
浏览 0
提问于2015-02-22
得票数 2
回答已采纳
2
回答
多元聚类、降维和回归数据分解
、
、
、
我有一个数据集,大约有20000个观测数据,包括40个独立变量和1个因变量。我最初的目标是建立一个预测因变量的模型。我尝试了几种模型,并应用了线性回归和其他算法,如随机森林,当然,通过将数据集分割成训练和测试集。 不幸的是,我没有任何有意义的结果,我有很大的错误。我认为数据集有些“混乱”,所以我决定先进行一些聚类,然后在每个集群中应用回归。考虑到我的因变量可能表现出很大的变化,我认为我应该对所有变量(因变量和独立变量)进行聚类,因为每个簇都有类似的因变量值。我试着申请Kmeans,但我遇到了几个问题。首先,我似乎无法确定正确的集群数目。“肘部”方法给出了一个不清楚的数字,当我用较少的数据(大约
浏览 0
提问于2018-11-13
得票数 0
2
回答
按字符串相似度对搜索结果进行分组的最有效方法
、
、
、
、
我正在开发一个sql server2008DB和asp.net mvc电子商务应用程序。 我有不同的用户向DB提供他们的产品,我想比较具有相似名称的产品的价格。我知道字符串匹配是特定于领域的,但我仍然需要最好的通用解决方案。 对搜索结果进行分组的最有效方法是什么?我应该使用Levenshtien距离算法递归地比较每条记录吗?我应该在数据库中完成,还是在代码中完成?有没有办法为这项任务实时实现SSIS模糊分组?有没有一种使用Sql server2008免费文本搜索的有效方法? 编辑1:网络图分析怎么样?如果我将使用Levenshtien距离算法定义一个矩阵,我可以使用聚类算法(例如: claus
浏览 0
提问于2012-03-29
得票数 5
回答已采纳
2
回答
在R commander的S_Dbw输出中,"Inf“是什么意思?
、
我已经运行了clv包,它由S_Dbw和SD有效性索引组成,用于在R commander中进行聚类。() 我用S_Dbw索引评估了DBSCAN,K-Means,Kohonen算法的聚类结果。但对于所有这三种算法,S_Dbw都是"Inf“。 它是“无限”的意思吗?为什么我要面对"Inf“这个词。我的聚类结果有什么问题吗? 一般情况下,什么时候S_Dbw索引结果是"Inf"?
浏览 0
提问于2012-11-01
得票数 2
回答已采纳
1
回答
叶聚类叶绿体区域
、
我对Leaflet库还是个新手,我想问一下下面的功能是不是已经在Leaflet(或者其他库)中实现了。 我找到了以下example,它基于地图上的标记进行聚类,并且地图还包含显示的choropleth区域。 我的问题是--有没有可能基于choropleth数据进行聚类?例如,如果我有一些区域的geojson数据,也会有每个区域的子区域的geojson数据。因此,如果我进行缩放,那么这些子区域将崩溃为大区域,或者大区域将被划分为小区域? 非常感谢您的建议或链接!
浏览 8
提问于2019-05-02
得票数 0
2
回答
群集之后会发生什么
、
、
、
、
我试图根据图像与SIFT和亲和力传播的相似性对图像进行聚类,我进行了聚类,但我只是不想可视化结果。如何从获得的标签中测试随机图像?或者可能还有更多的原因? 除了数据可视化,我不知道集群之后会发生什么。如何验证“集群”
浏览 15
提问于2019-05-31
得票数 0
3
回答
具有每个簇大小上限要求的聚类算法
、
、
、
我需要将大约50000个点划分为不同的簇。有一个要求:每个集群的大小不能超过K。有没有可以完成这项工作的聚类算法? 请注意,每个簇的上限K都是相同的,比如100。
浏览 1
提问于2011-06-23
得票数 0
回答已采纳
2
回答
电影类型的聚类
、
、
、
、
我是数据挖掘领域的初学者,我想将我的电影数据集聚类以找到流派组。我的数据集中有86部电影的26种不同类型。我想使用聚类来将我的电影分成几种类型,而不是26种。因此,例如,在运行某些聚类算法后,我将只剩下4个聚类或任何最适合我的数据集的小计数。我已经将我的数据集定义如下: M1 { G1,G2,.....G26} M2{G1,G2,.....G26}其中每个流派G1,...,G26可以保持值0或1,0表示缺席,1表示存在。现在我的下一步是在上面运行k-means聚类,我想使用一个很好的距离函数来表示皮尔逊相关系数。 我正在使用MATLAB做我的实验。我试着使用k=3,4,5,6做k-Means,
浏览 2
提问于2013-01-10
得票数 0
回答已采纳
1
回答
基于数据聚类的神经网络卷积滤波器设计
、
我的理解是,卷积神经网络中的过滤器将从原始数据(或之前的层)中提取特征,因此通过反向传播进行监督学习来设计它们是完全有意义的。但我看过一些论文,其中的过滤器是通过对输入数据样本进行无监督聚类来找到的。对我来说,这看起来很奇怪,为什么聚类中心可以被视为特征提取的好过滤器。有人对此有很好的解释吗?
浏览 1
提问于2017-12-09
得票数 0
2
回答
为什么k-means聚类忽略了一个重要的数据补丁?
、
、
我正在使用一组坐标,并且希望动态地(我有许多组需要经历这个过程)了解数据中有多少不同的组。我的方法是应用k-means来调查它是否会找到质心,然后我可以从那里开始。 当绘制具有6个不同聚类的数据时(视觉上),k-means算法继续忽略两个重要的聚类,同时将许多质心放入另一个聚类中。 如下图所示: 红色是坐标数据点,蓝色是k-means提供的质心。在这个特定的例子中,我选择了15 (任意),但它仍然不能识别右手边的那些数据补丁,而是在它们之间放置一个中点,而在右上角的集群中放入8。 诚然,在右上角有稍微多一点的数据点,但并不多。 我在R中使用标准的k-means算法,只需输入x和y坐标
浏览 3
提问于2017-08-17
得票数 0
1
回答
什么方法是最好的聚类多维数据具有不规则的形状?
、
、
、
、
我是机器学习和数据分析的新手,而且我还在努力将数据聚在一起。我正在处理大约四万个有6个功能的观察。 我尝试了各种聚类方法,包括K均值法、DBSCAN聚类法,并尝试了分层连锁聚类法.在预处理过程中,对丢失的数据进行归一化处理。一旦我完成PCA,将尺寸从4降到6,我的数据看起来就像新月形,下面可以看到蓝点。 我决定,使用10个聚类对K-均值最好是基于轮廓系数分析,这是结果: 在对数据进行聚类后执行PCA时,结果变化不大。 DBSCAN本身决定了4个集群,并给出了4个集群,但是大部分数据都被排除在这些集群之外,并被描述为噪声。 对于分层方法,当尝试执行联动()时,数据使用量过大,
浏览 7
提问于2016-06-15
得票数 0
回答已采纳
3
回答
在大型数据集上进行聚类
、
、
我正在尝试对一个大型(‘m)数据集进行集群。为了聚类,你需要每个点到其他点的距离,所以你最终得到了一个N^2大小的距离矩阵,在我的数据集的情况下,它将是艾字节的数量级。当然,Matlab中的Pdist会立即崩溃;) 有没有一种方法可以先对大数据的子集进行聚类,然后再进行一些相似聚类的合并? 我不知道这是否有帮助,但数据是固定长度的二进制字符串,所以我使用Hamming distance (Distance=string1 XOR string2)来计算它们的距离。
浏览 0
提问于2011-03-29
得票数 5
2
回答
机器学习中不同方面的困惑
、
、
、
在阅读了关于ML和算法的不同文章之后,科学家在描述ML的不同方面时倾向于使用不同的词。 所以现在我自己有点困惑,我希望如果我错了,你可以纠正我。 1)因此,在我看来,监督学习和无监督学习是机器学习算法的不同类别。每一类包含不同的算法,如神经网络和贝叶斯? 2)回归、分类和聚类是模型的类型。 3)模型是经过训练的算法的结果。 我希望我没有完全错,谢谢!)
浏览 0
提问于2018-04-14
得票数 1
1
回答
扫描所有机器学习分类器?
、
、
我正在使用Weka对一些大型数据集执行分类、聚类和一些回归。我目前正在尝试所有的分类器(决策树、SVM、朴素贝叶斯等)。 有没有办法(在Weka或其他机器学习工具包中)扫描所有可用的分类器算法,以找到产生最佳交叉验证精度或其他度量的算法? 我也想为我的其他聚类问题找到最好的聚类算法;也许可以找到最低的误差平方和?
浏览 0
提问于2013-10-12
得票数 1
2
回答
TSP问题的聚类算法
、
、
我正在尝试解决一个有大约10,000个城市的非常大的TSP。为了使我的任务并行化,我想将这些城市划分为集群,并求解每个集群的TSP。 我想要一种可以将我的城市划分为集群的方法(基于城市密度/集群中每个城市之间的邻近度)。 有谁知道做这件事的有效顺序吗?
浏览 1
提问于2012-12-14
得票数 1
回答已采纳
1
回答
基于预计算距离相关矩阵的海流聚类图问题
、
、
、
、
我是: (A)运行Seaborn文档( )中的示例,但使用dcor 中的,而不是仅限于线性或秩系数的pandas.DataFrame.corr。 那么我想: (B)对我自己的数据使用几个DataFrames进行同样的操作。 我直接向sns.clustermap提供距离相关性,就像在文档示例中所做的那样,因为我对热图中的结构感兴趣,而不是使用距离相关矩阵来计算链接,例如,在中这样做。我通过修改这个的代码来创建距离相关矩阵。 (A)这里没有问题 当我执行时: distcorr = lambda column1, column2: dcor.distance_c
浏览 1
提问于2019-09-12
得票数 2
1
回答
等尺寸聚类的聚类算法
、
、
我试图使用R中的PAM算法来围绕medoid形成集群,但对于PAM (多少有点强于集群大小)是否有固定的集群大小呢?是否还有其他聚类算法可以为medoid提供大小相等的集群? 提前谢谢你的帮助。
浏览 3
提问于2016-06-03
得票数 0
3
回答
K-表示初始中心决定结果?
、
、
K-均值聚类是一种常用的聚类方法.假设K-均值聚类有N个点,即N个点应划分为K个群,其中每个组中的点具有相似性。 在K-means clustering处理之前,我们应该给初始中心赋值,在这里,我从所有的点中随机选择K点,程序每次运行都得到不同的输出。为什么这会导致不同的结果,我如何知道哪一个是最好的分类?
浏览 5
提问于2014-01-07
得票数 4
回答已采纳
1
回答
利用反演距离进行K-均值聚类
、
、
首先,我试图弄清楚如何应用这个算法来解决一个家庭作业项目。所以,我不是在寻找家庭作业的解决方案,只是帮助我完成解决问题的算法。 我试图使用K-均值聚类来对一大组数组(2^6)进行聚类。这些数组是序列0,1,2.31的唯一排列。然而,我不需要使用欧几里德距离,而是需要使用反演距离。 我在k方法中的第一步是从数据集中选择k=10随机点.然后计算数据集中每个值到每个随机k点的反演距离。这给出了初始的聚类。 现在,我不知道如何将下一步从欧氏距离转换为反演距离。如何找到每个簇的中心(以反演距离表示),以便重复集群步骤? 作为一个伴生问题,欧几里德距离是(或等效)反演距离的一个很好的近似吗?我不相信是这样
浏览 0
提问于2016-11-11
得票数 2
回答已采纳
2
回答
用weka聚类相互作用粒子
、
、
、
、
我有一个聚类问题,可以这样总结: 我在三维空间中有N个粒子 每个粒子可以与不同数量的其他粒子相互作用。 每一种互动都有一种力量 我不知道集群的数量 我没有倾斜的样本(应该是无人监督的) 输出:我想得到: 集群数目 每个粒子成为簇的一部分的概率(能够移除未明确分配的粒子)。 我想直接从我的java代码调用集群程序。 问题: 哪一群人最适合我的问题? 我应该如何格式化数据? 应该使用三维定位信息作为交互信息的补充吗? 如何才能得到每个粒子的结果? 我对weka非常陌生,但从我在网上可以找到的信息来看: SOM能解决我的问题
浏览 9
提问于2012-05-06
得票数 2
回答已采纳
1
回答
如何比较k均值和层次聚类结果
、
、
我使用两种类型的聚类算法,我采用分层聚类,K-均值聚类使用python库。 现在的结果有点不同,那么我如何比较结果和使用哪种算法呢?因为我想为一组未标记的数据写一个结论。 使用多个算法并在它们之间进行比较有什么好处?
浏览 0
提问于2020-12-12
得票数 0
回答已采纳
1
回答
加权有向图中圈的消除
、
、
这是我其他帖子的后续问题。 我正在研究一种聚类算法,经过一些重新聚类之后,现在我有了一组点,它们都不在它们的最佳集群中,但不能单独重新分配,因为这将违反约束。 我试图使用一个图结构来解决这个问题,但是在实现中遇到了一些问题。 我是初学者,如果我错了,请告诉我。 Per @Kittsil的回答 构建一个以集群为节点的有向图,这样,如果全局解决方案被A移动到B中的某个点最小化,则存在一个边(A,B),在该图中查找循环将允许您找到潜在的移动(其中移动包括移动循环中的每个顶点)。 我修改了图,将权重加为从A到B的点数之和。 以下是一些我不确定如何决定重新分配的点的场景。 场景1。一个周期如下
浏览 2
提问于2015-05-08
得票数 3
回答已采纳
1
回答
Python K-均值聚类和最大距离
、
、
首先,我想说,我对聚类技术的了解非常有限,请不要对我太苛刻。 我有一个相当大的三维点集合(大约8,000点)--想想X,Y,Z三重奏,Z坐标代表地下地球上的一个点(负)。我想使用绝对最小的集群数来对这些点进行聚类,但有以下限制: 使用最少的集群数 所有的点都应该包含在聚类中,这意味着任何点至少应该属于一个集群。 任何点与星系团质心之间的最大距离(在地球表面的Z=0上移动)不应超过一定的固定距离d。 我在考虑使用scikit--学习k--方法,迭代地增加集群的数量,然后,对于数据集中的所有点,计算点与集群质心(在Z=0)之间的距离是否小于所提供的特定距离。 当然,我愿意接受更
浏览 1
提问于2019-01-06
得票数 1
2
回答
基于聚类结果的分类
、
以下是示例数据: Values Attribute1 Attribute2 Attribute3 Attribute4 2.5 1980 A 1.5 C 1.8 2000 A 0.4 B 12.4 2017 S 18.5 D 0.4 1987 R 10 P
浏览 0
提问于2017-11-15
得票数 1
回答已采纳
1
回答
为什么K-均值算法优于Kruskal的聚类算法
、
、
、
、
我正在修安德鲁·吴的课程“在课程中学习机器”。在讨论聚类时,他告诉我们,K-均值聚类算法是应用最广泛的算法.我之前还使用了Kruskal的聚类算法,这是一种非常有效的基于路径压缩和基于秩的联合算法。什么使K-的意思比Kruskal的算法更好?
浏览 2
提问于2020-06-01
得票数 3
回答已采纳
2
回答
在c++中对二进制向量进行k均值聚类的快速方法
、
、
、
我想将二进制向量(数百万个)聚类到k个聚类中,我使用hamming距离来寻找与初始聚类最近的邻居(这也非常慢)。我认为K-means聚类并不真正适合这里。问题在于计算到某个初始聚类中心的最近邻居(二进制向量)的平均值,以更新质心。 第二种选择是使用K-medoid,其中新的集群中心是从最近的邻居之一(对于特定集群中心的所有邻居最近的一个)中选择的。但是发现这是另一个问题,因为最近的邻居的数量也相当大。 有没有人能给我带路?
浏览 2
提问于2013-06-11
得票数 4
回答已采纳
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
什么是最小生成树算法?详述最小生成树算法的原理?用C语言实现最小生成树算法。内附完整代码。
最小生成树-克鲁斯卡尔算法-Kruskal算法
DBSCAN聚类算法详解
如何用聚类算法分析用户?
机器学习常见的聚类算法
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券