我是Hadoop和Spark的新手。我使用的是Spark-2.1.1-bin-hadoop2.7。使用SparkR,我想从Hadoop2.7.3HDFS加载(读取)数据。我知道,我可以使用“hdfs:// the - to - my - file”来指向我的Hadoop文件,但是我在SparkR中找不到一个函数来完成这项工作。read.df()不起作用。我正在使用sparkR.session()连接到我的Spark会话。为了启动Sp
从这里,Removing duplicates from rows based on specific columns in an RDD/Spark DataFrame,我们学习了如何根据一些特定的变量删除重复的观测值如果我想以RDD的形式保存这些重复的观测值,我该怎么做?我猜如果rdd.substract()包含数十亿个观察值,那么RDD的效率可能会很低。