要让sparklyr::spark_apply()产生多个工作进程,可以通过设置Spark的配置参数来实现。具体步骤如下:
例如,可以使用以下代码来设置这两个参数:
config <- spark_config()
config$set("spark.executor.instances", "4")
config$set("spark.executor.cores", "2")
spark_apply(df, function(x) { ... }, config = config)
这样,sparklyr将会使用指定的配置参数来启动多个工作进程,以并行处理数据。
需要注意的是,具体的配置参数值需要根据实际情况进行调整,以充分利用集群资源并满足任务需求。另外,还可以根据具体的需求设置其他相关的Spark配置参数,以进一步优化任务的执行效率。
推荐的腾讯云相关产品:腾讯云弹性MapReduce(EMR),它是一种大数据处理和分析的云服务,可以轻松地在云端创建和管理Spark集群,并提供了丰富的工具和功能来支持大规模数据处理和分析任务。详情请参考腾讯云EMR产品介绍:腾讯云EMR。
领取专属 10元无门槛券
手把手带您无忧上云