我一直跟随这个博客来阅读存储在谷歌桶中的数据。 --它工作得很好。以下命令当我尝试使用pyspark读取数据时,给出了预期的results.But: java.io.IOException: No FileSystem for scheme: gs
at org.apache.hadoop.fs.FileSystem.get
我正在使用Hadoop设置一个包含两个data+compute节点和两个纯计算节点的集群。我正在使用Spark with Yarn进行数据处理。对于前一种类型的节点,我只需将host-name添加到workers配置中,hadoop会自动在这些节点上启动hdfs和YARN。但是对于仅用于计算的节点,我不希望它们运行dfs。我找不到任何hadoop配置来将特定节点排除在运行dfs之外。有人能告诉我设置这种节点分布的正确方法吗?