腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(4005)
视频
沙龙
1
回答
如
何在
Elbon
方法
中
选择
最优
聚
类
数
?
、
我总是怀疑如何使用
Elbon
方法
选择
最优
的簇
数
。在下图中,最佳值是多少?我想是五个,但我不确定。 ? 在本例
中
,我绘制了K=4,5和6的集群 四: ? 五: ?
浏览 32
提问于2020-11-11
得票数 0
1
回答
我们能把集群和C指数平均进行比较吗?
、
、
如
您所知,K-均值算法需要簇
数
作为参数。我尝试将集群
数
从8开始计算为2,然后在每个循环中计算集群的所有C-索引,然后得到这些C-索引的副手。然后比较C指数的平均值,
选择
最小的C指数平均值作为
最优
聚
类
数
.这是检测集群计数的真正
方法
吗?
浏览 2
提问于2014-12-09
得票数 0
2
回答
如何从sklearn谱
聚
类
中
获得特征值和特征向量?
、
、
我正在尝试sklearn
中
的谱
聚
类
,为了设置
最优
聚
类
数
,我想使用本文“自调整谱
聚
类
”(发表在NIPS上)
中
建议的
方法
。这种
方法
需要特征值和特征向量,而我意识到sklearn谱
聚
类
不提供它。有没有办法从sklearn谱
聚
类
中
获得特征值和特征向量?
浏览 4
提问于2016-12-15
得票数 2
1
回答
K-均值:只有两个
最优
簇
、
、
、
我在R
中
运行一个k -均值算法,试图找到
最优
的簇
数
k,利用剪影法、间隙统计量和肘形法,确定了
最优
簇
数
为2。虽然没有为企业预先定义集群,但我担心k=2不太有洞察力,这就引出了一些问题。1)根据数据的自然
聚
类
,
最优
k=2意味着什么?这是否意味着也许没有明确的集群,或者没有集群比任何集群更好?2)在k=2时,R-平方值较低(.1).当k=5时,R-平方更好(.32).如果
选择
k=5,知道它不是
最优
的,那么它的确切取舍是什么
浏览 1
提问于2018-03-06
得票数 0
回答已采纳
2
回答
相同数据和
聚
类
数
的不同轮廓得分
、
、
、
、
我想使用silhouette score为我的数据集
选择
最优
聚
类
数
。我的数据集是关于2,000+品牌的信息,包括购买该品牌的客户数量、该品牌的销售额以及该品牌在每个类别下销售的商品数量。由于我的数据集非常稀疏,因此在
聚
类
之前我使用了MaxAbsScaler和TruncatedSVD。 我使用的
聚
类
方法
是k-means,因为我最熟悉这种
方法
(我希望您对其他
聚
类
<em
浏览 4
提问于2017-08-29
得票数 1
1
回答
KMeans没有预测正确的集群
、
、
、
、
进行K-均值
聚
类
,生成5个
最优
聚
类
数
.(不均匀地进行
聚
类
)。在我的模型中使用它们时,模型没有
选择
具有准确数据的精确集群。这种情况只发生在一些记录上。对于某些记录,它正在从错误的集群获得匹配,甚至在另一个集群
中
也存在精确的匹配。如果有人知道这件事,请给我一些建议,谢谢.
浏览 0
提问于2022-12-19
得票数 0
3
回答
分层
聚
类
:确定
最优
聚
类
数
,并从统计学角度描述
聚
类
。
、
、
我可以利用R
中
的一些
方法
来确定
最优
的簇
数
,然后用不同的统计标准来描述
聚
类
。我是R的新手,对聚类分析的统计基础有基本的了解。确定簇
数
的
方法
:文献中常用的一种确定簇
数
的
方法
是“弯头准则”,即比较不同簇解的平方差之和。因此,根据分析
中
的
聚
类
数
绘制出SSD图,并通过识别图中的“肘”(如此处:)来确定
最优
聚
类</
浏览 2
提问于2012-11-06
得票数 13
回答已采纳
4
回答
如何用Python
中
的K-均值
聚
类
找到
最优
聚
类
数
、
、
、
、
我对
聚
类
算法很陌生。我有一个有200多部电影和100多个用户的电影数据集。所有的用户至少给一部电影打分。如果注解器没有
选择
,值1表示好,0表示坏和空白。我想根据他们的评论对相似的用户进行
聚
类
,他们的想法是,将类似电影评为好的用户可能也会将同一组
中
没有被任何用户评为好的电影。我使用了k均值
聚
类
的余弦相似性度量。user100 1 0 1
浏览 3
提问于2021-02-01
得票数 3
回答已采纳
1
回答
从d最近的
聚
类
中心到n个点集的k
、
、
我有一组'n‘数据点和'd’可能的
聚
类
中心,这些都是先验已知的。我需要从这些'd‘
聚
类
中心中
选择
“最佳”'k’(值'k‘也已知),以便在这些'k’
聚
类
中心上对'n‘数据点进行
聚
类
,从而得到最小的总累积距离。我认为的一个近似解是首先对数据点进行盲目
聚
类
(例如,高斯混合
聚
类
和
聚
<e
浏览 4
提问于2022-08-06
得票数 0
2
回答
如何根据相似度对大数据集进行
聚
类
?
、
、
、
我想根据相似度将一个巨大的数据集聚
类
到集群
中
。我该如何解决这个问题?我已经尝试了MinBatchK means和DBSCAN,但我没有得到很好的结果。我正在使用TFIDF将文本转换为向量 例如:当我使用一个有80000条记录的数据集时,大约需要2-3个小时才能形成一个大小为500的
聚
类
。这使得用MinBatchK K均值找到
最优
聚
类
数
变得非常困难,因为我必须改变K的值,然后用像弯曲法这样的
方法
找出
最优
聚</e
浏览 2
提问于2020-09-24
得票数 0
1
回答
聚
类
循环Python
我正在使用kmeans对python
中
的数据集进行
聚
类
。在对数据集进行
聚
类
之前,我使用肘形曲线确定了最佳
聚
类
数
。
最优
聚
类
数
为5。因此,在对数据集进行kmeans
聚
类
之后,我得到了5个不同的
聚
类
。一旦我对这5个集群
中
的每一个都有了较小的集群,我想再次对这些较小的集群进行
聚
<e
浏览 1
提问于2022-01-31
得票数 0
回答已采纳
3
回答
sklearn
聚
类
:确定大数据集上
最优
聚
类
数
的最快
方法
、
、
、
、
我使用和python
中
sklearn的来计算集群,但是在>10.000个样本上,>1000个集群计算silhouette_score的速度非常慢。 是否有更快的
方法
来确定
最优
的
聚
类
数
?或者我应该改变
聚
类
算法?如果是,对于>300.000个样本和大量集群的数据集,哪一种算法是最好的(也是最快的)?
浏览 1
提问于2016-12-27
得票数 4
回答已采纳
1
回答
Sklearn k-均值
聚
类
(加权),确定每个特征的最佳样本权重?
、
、
、
、
K-均值
聚
类
在学习
中
,簇
数
是预先已知的(它是2).有多种特征。特征值最初是不分配任何权重的,即它们被同等对待。然而,任务是为每个特性分配自定义权重,以获得最佳的
聚
类
分离。如何确定每个特征的
最优
样本权重(sample_weight),从而得到两个
聚
类
之间的最佳分离?如果对于k均值或sklearn来说,这是不可能的,那么我对任何可选的
聚
类
解决方案都感兴趣,重点是我需要自动确定多元特征的适当权重的
浏览 6
提问于2021-01-05
得票数 0
1
回答
Apache和KMeans与scikit_learn之间的不一致结果
、
、
、
、
我正在使用PySpark对数据集执行
聚
类
。为了找到集群的数量,我对一系列值(2,20)执行了
聚
类
,并为k的每个值找到了k(在集群内的平方和)值。在这里我发现了一些不寻常的东西。根据我的理解,当增加簇
数
时,wsse会单调地减少。但结果我却不这么说。我只显示前几个集群的wsse。我尝试使用相同的值,在火花和滑雪KMeans模型
中
的参数。以下是滑雪的结果,正如我所预料的,它们是单调递减的。
浏览 1
提问于2018-05-18
得票数 4
回答已采纳
1
回答
我想要一组句子,但现在我不知道会有多少组句子
、
、
、
、
我如
何在
不给出集群数量的情况下对它们进行
聚
类
?我使用了k-
方法
和凝聚性的
方法
,但它们并没有给我带来好的结果。有人能告诉我确定
最优
簇
数
的最佳
方法
吗?
浏览 9
提问于2022-09-25
得票数 0
1
回答
PCA是如何给出中心知识的
方法
的?
、
、
我正在查看在上给出的示例代码# in this case the seeding of the centers is deterministic, hence we run thepca = PCA(n_components=n_digits).fit(data) name="PCA-based",
浏览 3
提问于2014-08-07
得票数 3
回答已采纳
1
回答
对不同数量的集群进行外部
聚
类
评估
有许多外部
聚
类
指标,
如
(调整)互信息,(调整)兰德指数,等等。然而,在集群数目不相同的情况下,它们不太擅长比较集群。 例如,如果我把一个集群分割成两个新的集群,比较就会得到一个很低的分数。在我的案例
中
,要评估
聚
类
,这个操作不应该对分数产生很大的影响。此外,根据1,没有一个比较好的
聚
类
评价指标使用
最优
配对,只使用贪婪
方法
来寻找
聚
类
匹配(解决线性分配问题)。因此,我的问题是:是否有任何
浏览 0
提问于2019-08-26
得票数 0
1
回答
Kmeans
聚
类
优化
数
的确定
、
、
、
、
我可以使用以下文章中提供的指导对数据进行
聚
类
: 但是,我想知道如何使集群本身为集群“n_clusters”的数量
选择
值,而不需要
选择
这个值。我尝试了肘法,但我看到的例子,到目前为止,他们使用绘图来
选择
最优
的簇
数
。我的问题是:如
何在
没有视觉检查的情况下找到“集群数量”的最佳值?
浏览 7
提问于2022-06-07
得票数 0
3
回答
我们能自动
选择
k-均值算法
中
的k值吗?
、
我们能否自动
选择
K值,尝试每一个可能的值(k=1,..,n),其中n是要集群的实例数。然后,我们保留K的值,然后用最小二乘和的
方法
得到最小值。 这个策略能起作用吗?
浏览 0
提问于2020-12-22
得票数 1
2
回答
你使用什么
方法
来
选择
k-means和EM
中
的最佳
聚
类
数
?
、
、
、
有许多
聚
类
算法可用。一种流行的算法是K-means算法,其中,基于给定数量的
聚
类
,该算法迭代以找到对象的最佳
聚
类
。 在k-means
聚
类
中
,您使用什么
方法
来确定数据
中
的
聚
类
数
?R
中
是否有可用的包包含用于确定正确的集群数量的V-fold cross-validation
方法
?另一种常用的
方法
是期
浏览 1
提问于2010-02-23
得票数 13
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
菜鸟入门数据挖掘的必备知识
聚类分析的基本概况
40个问题测试你的机器学习聚类技术
聚类与K-Means
一文揭开机器学习算法的神秘面纱
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券