("myLogFile*")org.apache.spark.rdd.RDD[String] = MappedRDD[1] at textFile at <console>:12
阅读Scala文档:“并行集合是通过在现有的Scala集合(序列对象)上调用SparkContext的parallelize方法创建的。”RDD上可以进行并行化处理吗?我是否需要将RDD转换为Seq对象?
我正在将一些Matlab代码转换为Scala。在Matlab中,有一个matlabpool函数,用于定义要使用的核数,并为并行计算“打开”核心(然后使用parfor而不是 for 并行运行循环)。matlabpool open 4matlabpool close什么是与Scala中的matlabpool等价的?
澄清了问题: SparkContext在Java中是可用的,但需要一个Scala序列。我如何让它快乐--在Java中?
我有这段代码来执行我在中使用的一个简单的,但是需要一个Scala集合。我以为我正在构建Scala范围并将其转换为Java列表,不知道如何将核心范围变成Scala,这就是。来实现并行化?// these lists above need to be scala objects now that we