首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >如何使用dataproc从与我的dataproc集群不在同一项目中的bigquery中提取数据?

如何使用dataproc从与我的dataproc集群不在同一项目中的bigquery中提取数据?
EN

Stack Overflow用户
提问于 2018-11-02 13:37:36
回答 1查看 166关注 0票数 0

我所在的组织需要使用Spark从客户的bigquery数据集中提取数据,考虑到客户和我们都使用GCP,使用Dataproc来实现这一点是有意义的。

我读过Use the BigQuery connector with Spark,它看起来非常有用,但是它似乎假设dataproc集群、bigquery数据集和临时BigQuery导出的存储桶都在同一个GCP项目中-对我来说并非如此。

我有一个服务帐户密钥文件,它允许我连接到存储在bigquery中的客户数据并与之交互,我如何将该服务帐户密钥文件与BigQuery连接器和dataproc结合使用,以便从bigquery中提取数据并在dataproc中与其交互?换句话说,我如何修改Use the BigQuery connector with Spark提供的代码以使用我的服务帐户密钥文件?

EN

回答 1

Stack Overflow用户

发布于 2018-11-02 14:30:30

要使用服务帐户密钥文件授权,您需要将mapred.bq.auth.service.account.enable属性设置为true,并使用mapred.bq.auth.service.account.json.keyfile属性(clusterjob)将BigQuery连接器指向服务帐户json密钥文件。请注意,此属性值是一个本地路径,这就是您需要预先将密钥文件分发到所有集群节点的原因,例如,使用initialization action

或者,您可以使用here描述的任何授权方法,但需要将fs.gs属性前缀替换为BigQuery connectormapred.bq

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/53119618

复制
相关文章
Cloud Dataproc已完成测试,谷歌云平台生态更加完善
去年9月份,谷歌为Hadoop和Spark推出了Cloud Dataproc服务的beta版本,如今半年过去了,Cloud Dataproc服务已完成测试,现在可以被广泛使用。 谷歌在旧金山的一次活
CSDN技术头条
2018/02/11
9090
Cloud Dataproc已完成测试,谷歌云平台生态更加完善
1年将超过15PB数据迁移到谷歌BigQuery,PayPal的经验有哪些可借鉴之处?
作者 | Romit Mehta、Vaishali Walia 和 Bala Natarajan
深度学习与Python
2021/07/12
4.7K0
没有三年实战经验,我是如何在谷歌云专业数据工程师认证中通关的
注:本文专用于2019年3月29日前的谷歌云专业数据工程师认证考试。此后我也做了一些更新,放在了Extras的部分。
机器之心
2019/05/17
4K0
谷歌发布 Hive-BigQuery 开源连接器,加强跨平台数据集成能力
最近,谷歌宣布正式发布 Hive-BigQuery Connector,简化 Apache Hive 和 Google BigQuery 之间的集成和迁移。这个开源连接器是一个 Hive 存储处理程序,它使 Hive 能够与 BigQuery 的存储层进行交互。
深度学习与Python
2023/09/08
3510
谷歌发布 Hive-BigQuery 开源连接器,加强跨平台数据集成能力
基于Apache Hudi在Google云平台构建数据湖
自从计算机出现以来,我们一直在尝试寻找计算机存储一些信息的方法,存储在计算机上的信息(也称为数据)有多种形式,数据变得如此重要,以至于信息现在已成为触手可及的商品。多年来数据以多种方式存储在计算机中,包括数据库、blob存储和其他方法,为了进行有效的业务分析,必须对现代应用程序创建的数据进行处理和分析,并且产生的数据量非常巨大!有效地存储数PB数据并拥有必要的工具来查询它以便使用它至关重要,只有这样对该数据的分析才能产生有意义的结果。
ApacheHudi
2022/04/01
1.8K0
基于Apache Hudi在Google云平台构建数据湖
如何组合不同版本的React组件到同一项目中
react-dom负责将虚拟 dom 组成的树,渲染到 HTML 的 dom 节点上。
我是leon
2022/03/14
2.5K0
Parquet
Parquet是可用于Hadoop生态系统中任何项目的开源文件格式。与基于行的文件(例如CSV或TSV文件)相比,Apache Parquet旨在提供高效且高性能的扁平列式数据存储格式。
大数据流动
2020/08/11
1.3K0
Parquet
如何使用QueenSono从ICMP提取数据
QueenSono是一款针对ICMP协议的数据提取工具,该工具基于Golang开发,并且只依赖于ICMP协议不受监控这一事实实现其功能。除此之外,该工具也可以用于基本的ICMP检查,或绕过某些身份验证机制,比如说许多公共Wi-Fi在连接到Wi-Fi(如机场Wi-Fi)后用于对用户进行身份验证。
FB客服
2021/10/22
2.6K0
Flink与Spark读写parquet文件全解析
Parquet 是一种开源文件格式,用于处理扁平列式存储数据格式,可供 Hadoop 生态系统中的任何项目使用。 Parquet 可以很好地处理大量复杂数据。它以其高性能的数据压缩和处理各种编码类型的能力而闻名。与基于行的文件(如 CSV 或 TSV 文件)相比,Apache Parquet 旨在实现高效且高性能的平面列式数据存储格式。
从大数据到人工智能
2022/01/27
6.1K2
Flink与Spark读写parquet文件全解析
GCP 上的人工智能实用指南:第一、二部分
在本节中,我们将介绍 Google Cloud Platform(GCP)上的无服务器计算基础。 我们还将概述 GCP 上可用的 AI 组件,并向您介绍 GCP 上的各种计算和处理选项。
ApacheCN_飞龙
2023/04/26
17.3K0
如何从网站提取数据?
在当今时代,根据数据情况来制定业务决策是许多公司的头等大事。为了推动这些决策,公司全天候跟踪,监视和记录相关数据。幸运的是,很多网站的服务器上存储了大量公共数据,可以帮助企业在竞争激烈的市场中保持领先地位。
用户7850017
2021/01/29
3.1K0
【笔记php】如何使用PHP从JSON提取数据?
2022年8月26日16点36分 如何使用PHP从JSON提取数据? 不多bb,直接上示例 一 $Json = ' { "type": "fish9.cn", "name": "fish9.cn" }'; $fish = Json_decode($Json,true); echo $fish["type"]; //结果fish9.cn 二 $Json = '{ "type":"fish9.cn", "name":"fish9.cn", "daily":[{
吃猫的鱼Code
2023/02/02
4.9K0
2019年,Hadoop到底是怎么了?
目前云驱动数据处理和分析呈上升趋势,我们在本文中来分析下,Apache Hadoop 在 2019 年是否还是一个可选方案。
王知无-import_bigdata
2019/07/09
1.9K0
2019年,Hadoop到底是怎么了?
[AI新知] Google的AI平台笔记本开始支援R语言
Google在今年Next大会中发布了一系列支援机器学习生命周期各阶段的工具,其中包括了AI平台笔记本,这是一个代管服务,供使用者以最新的资料科学与机器学习开发框架,创建JupyterLab执行个体服务,现在Google宣布在AI平台笔记本支援R语言。
阿泽
2019/06/21
6810
[AI新知] Google的AI平台笔记本开始支援R语言
如何使用GitBleed从Git库镜像中提取数据
GitBleed是一款针对Git库镜像的安全检测工具,该工具包含了多个Shell脚本,可以帮助广大研究人员下载克隆的Git库和Git库镜像,然后从中提取各种数据,并分析两者之间的不同之处。
FB客服
2022/06/08
2.2K0
BigQuery:云中的数据仓库
原文地址:https://dzone.com/articles/bigquery-data-warehouse-clouds
Steve Wang
2018/06/04
5K0
BigQuery:云中的数据仓库
如何从内存提取LastPass中的账号密码
简介 首先必须要说,这并不是LastPass的exp或者漏洞,这仅仅是通过取证方法提取仍旧保留在内存中数据的方法。之前我阅读《内存取证的艺术》(The Art of Memory Forensics)时,其中有一章节就有讨论从浏览器提取密码的方法。当你使用标准的用户名/密码方式登录一个网页,通常会发送一个包含了你的用户名及密码的post请求,这些都是以明文方式发送(这里不过多讨论SSL,在SSL内部也是明文发送的)。 本文描述如何找到这些post请求并提取信息,当然如果你捕获到浏览器登录,这些方法就很实用。
FB客服
2018/02/09
5.7K0
如何从内存提取LastPass中的账号密码
如何使用Python提取社交媒体数据中的关键词
嘿,大家好!今天我要和大家分享一个有趣的话题:如何使用Python提取社交媒体数据中的关键词。你知道吗,社交媒体已经成为我们生活中不可或缺的一部分。每天,我们都会在社交媒体上发布各种各样的内容,包括文字、图片、视频等等。但是,这些海量的数据中,如何找到我们感兴趣的关键词呢?
小白学大数据
2023/09/14
4150
vue2项目中如何使用es2020
ECMAScript 基于多种原始技术,最著名的是 JavaScript (Netscape) 和 JScript (Microsoft)。截止2022年,正式标准一共发布12次,es2020草案撰写中。
奋飛
2021/12/30
1K0
Kaggle大神带你上榜单Top2%:点击预测大赛纪实(上)
大数据文摘作品 作者:Gabriel Moreira 编译:朝夕、Katherine Hou、党晓芊、Niki、元元、钱天培 作为全世界最知名的数据挖掘、机器学习竞赛平台,Kaggle早已成为数据玩家在学习了基础机器学习之后一试身手的练兵场。 那么,参加Kaggle比赛到底是怎样一种体验呢?Kaggle比赛的爱好者们不计其数,很显然这些比赛不会是简单枯燥的模型调参。 更进一步地问,Kaggle比赛的优胜者们又是如何取得优异的成绩的呢?优质的算法对大多数Kaggle竞赛来说显然不是制胜法宝——SVM、随机森林
大数据文摘
2018/05/24
1.2K0

相似问题

从dataproc集群将数据加载到bigquery表时出错

10

将数据从BigQuery表加载到Dataproc集群时出错

118

如何将bigquery表加载到dataproc集群

11

从模板创建dataproc集群

12

如何访问Dataproc集群元数据?

216
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文