这是对的跟进17/05/16 17:39:02 INFO org.apache.hadoop.yarn.client.RMProxyResourceManager at stream-event-processor-m/10.138.0.3:8032
17/05/16 17:39:03 INFO org.apache.hadoop.yarn.clie
我们正在使用GoogleCloudPlatform进行大数据分析。对于处理,我们目前使用的是google cloud dataproc & spark-streaming。我想使用RESTAPI提交一个Spark作业,但是当我使用api-key调用URI时,我得到了以下错误!caller does not have permission",
"status": "PERMISS
通常情况下,如果我将Scala用于Spark作业,我将编译一个jarfile并使用gcloud dataproc jobs submit spark提交它,但有时对于非常轻量级的作业,我可能在笔记本中使用未编译的Scala代码,或者使用spark-shell REPL,在这里我假设SparkContext已经可用。对于其中的一些轻量级用例,我可以等效地使用PySpark并与gcloud dataproc jobs submit pyspark一起提交,
我使用的一个变体(因为我无法访问一般使用的存储桶),一切正常工作,但是当我运行一个作业时,当集群启动并运行时,它总是导致一个Task was not acquired错误。我可以通过简单地在每个节点上重新启动dataproc代理来修复这个问题,但是我确实需要这样做才能在集群创建后立即运行作业。relies on undocumented and not officially supported Dataproc Agent
# &qu