要让dplyr::summarize_all在Spark DataFrame上工作,可以使用Sparklyr包提供的功能来实现。Sparklyr是一个R语言的Spark接口,它允许在R中使用Spark的功能。
以下是使用数据库让dplyr::summarize_all在Spark DataFrame上工作的步骤:
install.packages("sparklyr")
library(sparklyr)
sc <- spark_connect(master = "local")
spark_dataframe <- copy_to(sc, your_spark_dataframe, "table_name")
其中,your_spark_dataframe是你的Spark DataFrame对象,table_name是你为Spark SQL表指定的名称。
dplyr_table <- tbl(sc, "table_name")
其中,table_name是你在第3步中指定的Spark SQL表的名称。
result <- dplyr_table %>% summarize_all(.funs = list(mean, sum))
在上述示例中,使用了mean和sum函数对所有列进行聚合操作。你可以根据需要选择其他聚合函数。
result <- collect(result)
这样,你就可以在R中获得dplyr::summarize_all函数在Spark DataFrame上的聚合结果。
需要注意的是,上述步骤中的your_spark_dataframe和table_name需要根据实际情况进行替换。另外,为了使dplyr::summarize_all函数在Spark DataFrame上工作,你需要了解dplyr和Sparklyr的语法和功能。
领取专属 10元无门槛券
手把手带您无忧上云