我需要使用单词袋(在本例中是功能包)来生成描述符向量来对进行分类。为了做到这一点,我需要使用kmeans聚类算法对提取的特征进行聚类并找到代码本。从数据集中提取的特征形成约75000个向量,每个向量包含100个元素。因此,我在Ubuntu中使用scipy.cluster.kmeans2实现时面临内存问题。我运行了一些测试,发现对于每个元素都是100个的32000向量,使用的内存量大约是20 of (我的总内存是32 of)。
还有其他的Python表示实现更有效的内存吗?我已经读过用于集群大数据的文章了,但我仍然不明白他的优势是什么,用这些数据来提高内存效率吗?
我想在C#中创建一个包含100个列和300行(比方说)的DataGridView。
到目前为止,我意识到创建datagridview真的很慢(当整个网格完成时,已经一分钟了),因为我使用for循环逐个添加行,如下所示:
for (int i = 0; i < Global_Map.Rows; i++)
{
var row = dt.NewRow();
dt.Rows.Add(row);
}
有没有一种更快的方法来定义datagridview中的行数?
我有大量的短信。我希望找到这些消息后面的常见模式(比如20种最常见的模式)。示例消息:
msg1 = "Rahul, Your New Delhi (NDLS) - Agra Cantt (AGC) train booking is confirmed.\nPNR: 1234567890\nBooking ID: ABCDE123456789012\nView your Trip Here: https://xyz.app.link/A0b1cDEFGH\nFor any queries please write to some_url.com.\n\nHappy with our s
我的数据集形状是(248857, 11),这是StandartScaler之前的样子。我之所以进行聚类分析,是因为那些聚类算法(如K-means )在输入到algo之前确实需要特征缩放。
之后
我用三个集群实现了K-均值,我试图找到一种方法来显示这些集群。我发现found是一个解决方案,但我被困住了。我就是这样实现它的:
# save the clusters into a variable l.
l = df_scale['clusters']
d = df_scale.drop("clusters", axis = 1)
standardized