在使用sparklyr进行所有操作之后,它被简化为1,880,573 rows和629 columns。当我尝试使用sdf_collect()为Factor Analysis收集它时,它给出了这个内存错误:
Error : org.apache.spark.sql.execution.OutOfMemorySparkException: Total memory usage during row decode exceeds spark.driver.maxResultSize (4.0 GB).The average r
我正在通过"sparklyr“和"SparkR”对spark in R进行基准测试。我在不同的Testdata上测试不同的函数。在两种特殊的情况下,我计算了一列中的零的数量和一列中的NA的数量,我意识到无论数据有多大,在不到一秒的时间内就能得到结果。所有其他计算都会随着数据的大小而变化。所以我不认为Spark在那里计算任何东西,但那些案例存储在元数据</