我是新的主题建模和文本聚类领域,我正在努力学习更多。我想使用DBSCAN来集群文本数据。关于如何在python上实现DBSCAN,比如1、2、3.,有很多文章和源代码,但它们对我来说太难理解了,也不能在python中理解。
我有一个包含userID和消息的CSV数据,他们编写的消息如下:
user.csv ( csv行数:400 (#message))
userID messages
112 The car was broken and Kevin fixed it
.
.
.
我知道应用DBSCAN的一些步骤,例如:
删除停止词
找到相似距离(我有一个做余弦相似的代码)
更新:在最后,我选择了用于集群我的大型数据集的解决方案是由Anony提出的。也就是说,使用ELKI的DBSCAN实现来完成我的集群而不是scikit的学习,它可以从命令行运行,并通过适当的索引,在几个小时内完成这个任务。使用GUI和小样本数据集计算出您想要使用的选项,然后再去镇上。值得一查。不管怎么说,请继续阅读,了解我最初的问题和一些有趣的讨论。
我有一个有250万个样本的数据集,每个样本都有35个特性(浮点值),我正试图对它们进行聚类。我一直试图用scikit实现DBSCAN,使用曼哈顿距离度量和从数据中抽取的一些小随机样本估计的epsilon值。到现在为止还好。(这是片段,供参考)
db
我在3D空间中有以下几点:
我需要分组,根据D_max和d_max的说法
D_max = max dimension of each group
d_max = max distance of points inside each group
如下所示:
上面图像中组的形状看起来像一个框,但是形状可以是任何可能是分组算法的输出的形状。
我正在使用Python并使用Blender可视化结果。我正在考虑使用并调用它的 API,但是,我不确定这是否是当前工作的合适工具。我担心可能有更好的工具,而我不知道。我很想知道是否还有其他工具/库/算法可以帮助我。
正如@CoMartel
提出的问题如下:使用scikit-学习将数据分割成一个培训和测试集。使用DBSCAN将数据分类为猫或狗。
我试图弄清楚如何使用DBSCAN来使用训练数据来拟合模型,然后预测测试集的标签。我很清楚DBSCAN是用于集群而不是预测的。我还看过和许多其他线程。DBSCAN只附带fit和fit_predict函数,当尝试使用训练数据拟合模型,然后使用测试数据测试模型时,这些函数似乎不太有用。
这个问题是用词不当还是我漏掉了什么?我已经看过科学工具包-学习文档以及寻找例子,但没有任何运气。
# Split the samples into two subsets, use one for trainin
我对整个集群和其他东西都很陌生,所以我有点迷失在编程的最后一步。在已经做了一些工作之后,已经获得了项目和Items_Comp之间的正确相似性。我有一个如下的示例数据集(该值属于Items列): Items Items_Comp Similarity Item Value
A B 0.6 50
A C 0.0 50
A D 0.0 50
A E 0.2 50
B A 0.6 100
B C 0.2 100
B D 0.4 100
B E 0.4 100
C A 0.0 200
C B 0.2 200
C D 0.6 200
C
情况就是这样..。
我有两个函数A()和B()。函数A()有一个for-循环,它在每次迭代中调用函数B()。函数B()有一个for-循环,迭代次数约为1000万次。
Function A()
{
for (i = 0; i < 10; i++)
Function B();
}
Function B()
{
for (i = 0; i < 10000000; i++)
certain_operations()
}
现在,我面临的问题是,A()的for-循环的第一次迭代需要1分钟执行,第二次迭代需要2分钟,第三次迭代需要4分钟等等……即