我在Google dataproc集群版本1.4和spark版本2.4.5中运行spark作业,它从GS存储桶中读取路径中具有正则表达式的文件,并获取以下错误。)
at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$org$apache$spark$sql$execution$datasourc
通常情况下,如果我将Scala用于Spark作业,我将编译一个jarfile并使用gcloud dataproc jobs submit spark提交它,但有时对于非常轻量级的作业,我可能在笔记本中使用未编译的Scala代码,或者使用spark-shell REPL,在这里我假设SparkContext已经可用。对于其中的一些轻量级用例,我可以等效地使用PySpark并与gcloud dataproc jobs s