我是大数据技术的新手,我不得不在EMR上以集群模式运行一个火花作业。作业是用python编写的,它依赖于几个库和一些其他工具。我已经编写了脚本并在本地客户端mode.But中运行它当我试图使用yarn.How运行它时出现了一些依赖问题,我管理这些依赖项吗?$$anon$1.read(PythonRDD.scala:193)
at org.apache.spark.api</e
我正在尝试使用SanFranciso的道路网络数据集,该数据集可在此链接中免费获得:我只使用Edge数据集,并且我想在一个由然而,当我尝试在graphRDD上应用'graph.PartitionBy(PartitonStrategy)‘函数时,我得到的错误是'Partition cannot is not be resolved有人能告诉我为什么会出现这个错误吗?<