首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >如何使用dataproc从与我的dataproc集群不在同一项目中的bigquery中提取数据?

如何使用dataproc从与我的dataproc集群不在同一项目中的bigquery中提取数据?
EN

Stack Overflow用户
提问于 2018-11-02 21:37:36
回答 1查看 166关注 0票数 0

我所在的组织需要使用Spark从客户的bigquery数据集中提取数据,考虑到客户和我们都使用GCP,使用Dataproc来实现这一点是有意义的。

我读过Use the BigQuery connector with Spark,它看起来非常有用,但是它似乎假设dataproc集群、bigquery数据集和临时BigQuery导出的存储桶都在同一个GCP项目中-对我来说并非如此。

我有一个服务帐户密钥文件,它允许我连接到存储在bigquery中的客户数据并与之交互,我如何将该服务帐户密钥文件与BigQuery连接器和dataproc结合使用,以便从bigquery中提取数据并在dataproc中与其交互?换句话说,我如何修改Use the BigQuery connector with Spark提供的代码以使用我的服务帐户密钥文件?

EN

回答 1

Stack Overflow用户

发布于 2018-11-02 22:30:30

要使用服务帐户密钥文件授权,您需要将mapred.bq.auth.service.account.enable属性设置为true,并使用mapred.bq.auth.service.account.json.keyfile属性(clusterjob)将BigQuery连接器指向服务帐户json密钥文件。请注意,此属性值是一个本地路径,这就是您需要预先将密钥文件分发到所有集群节点的原因,例如,使用initialization action

或者,您可以使用here描述的任何授权方法,但需要将fs.gs属性前缀替换为BigQuery connectormapred.bq

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/53119618

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档