我使用的数据集大约有460,000行和1,300列。我想通过使用熊猫的.corr()
函数看到对分数影响最大的栏数来减少列数。
然而,在如此大的数据集上,计算相关矩阵大约需要20分钟。有没有办法加快计算速度?
发布于 2022-11-21 09:50:27
您可以使用类似或相同的熊猫语法库,如: dask,pandaralells,ray,modin。这些库中的每一个都允许所有处理器核心工作。熊猫通常只使用一个核心。Dask和ray还允许您处理大数据。
也可以只选择数据集的一部分。460,000是相当多的,我认为如果你不小心取了这个值的一半,如果你取整个数据集的话,结果会非常相似。不幸的是,我无法从数学上估计会有多大的差别。
https://datascience.stackexchange.com/questions/116357
复制