开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用dataproc从与我的dataproc集群不在同一项目中的bigquery中提取数据？

问如何使用dataproc从与我的dataproc集群不在同一项目中的bigquery中提取数据？
EN

Stack Overflow用户

提问于 2018-11-02 13:37:36

回答 1查看 166关注 0票数 0

我所在的组织需要使用Spark从客户的bigquery数据集中提取数据，考虑到客户和我们都使用GCP，使用Dataproc来实现这一点是有意义的。

我读过Use the BigQuery connector with Spark，它看起来非常有用，但是它似乎假设dataproc集群、bigquery数据集和临时BigQuery导出的存储桶都在同一个GCP项目中-对我来说并非如此。

我有一个服务帐户密钥文件，它允许我连接到存储在bigquery中的客户数据并与之交互，我如何将该服务帐户密钥文件与BigQuery连接器和dataproc结合使用，以便从bigquery中提取数据并在dataproc中与其交互？换句话说，我如何修改Use the BigQuery connector with Spark提供的代码以使用我的服务帐户密钥文件？

google-cloud-dataproc

EN

回答 1

Stack Overflow用户

发布于 2018-11-02 14:30:30

要使用服务帐户密钥文件授权，您需要将mapred.bq.auth.service.account.enable属性设置为true，并使用mapred.bq.auth.service.account.json.keyfile属性(cluster或job)将BigQuery连接器指向服务帐户json密钥文件。请注意，此属性值是一个本地路径，这就是您需要预先将密钥文件分发到所有集群节点的原因，例如，使用initialization action。

或者，您可以使用here描述的任何授权方法，但需要将fs.gs属性前缀替换为BigQuery connector的mapred.bq。

票数 3

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/53119618

复制

相关文章

Cloud Dataproc已完成测试，谷歌云平台生态更加完善

去年9月份，谷歌为Hadoop和Spark推出了Cloud Dataproc服务的beta版本，如今半年过去了，Cloud Dataproc服务已完成测试，现在可以被广泛使用。谷歌在旧金山的一次活

CSDN技术头条

2018/02/11

9090

Cloud Dataproc已完成测试，谷歌云平台生态更加完善

1年将超过15PB数据迁移到谷歌BigQuery，PayPal的经验有哪些可借鉴之处？

数据湖数据库编程算法 sql

作者 | Romit Mehta、Vaishali Walia 和 Bala Natarajan

深度学习与Python

2021/07/12

4.7K0

没有三年实战经验，我是如何在谷歌云专业数据工程师认证中通关的

linux https 网络安全认证考试

注：本文专用于2019年3月29日前的谷歌云专业数据工程师认证考试。此后我也做了一些更新，放在了Extras的部分。

机器之心

2019/05/17

4K0

谷歌发布 Hive-BigQuery 开源连接器，加强跨平台数据集成能力

开源 hive 数据集成跨平台数据

最近，谷歌宣布正式发布 Hive-BigQuery Connector，简化 Apache Hive 和 Google BigQuery 之间的集成和迁移。这个开源连接器是一个 Hive 存储处理程序，它使 Hive 能够与 BigQuery 的存储层进行交互。

深度学习与Python

2023/09/08

3510

谷歌发布 Hive-BigQuery 开源连接器，加强跨平台数据集成能力

基于Apache Hudi在Google云平台构建数据湖

https kafka 网络安全 apache

自从计算机出现以来，我们一直在尝试寻找计算机存储一些信息的方法，存储在计算机上的信息（也称为数据）有多种形式，数据变得如此重要，以至于信息现在已成为触手可及的商品。多年来数据以多种方式存储在计算机中，包括数据库、blob存储和其他方法，为了进行有效的业务分析，必须对现代应用程序创建的数据进行处理和分析，并且产生的数据量非常巨大！有效地存储数PB数据并拥有必要的工具来查询它以便使用它至关重要，只有这样对该数据的分析才能产生有意义的结果。

ApacheHudi

2022/04/01

1.8K0

基于Apache Hudi在Google云平台构建数据湖

如何组合不同版本的React组件到同一项目中

react javascript java

react-dom负责将虚拟 dom 组成的树，渲染到 HTML 的 dom 节点上。

我是leon

2022/03/14

2.5K0

apache 存储文件存储费用中心

Parquet是可用于Hadoop生态系统中任何项目的开源文件格式。与基于行的文件（例如CSV或TSV文件）相比，Apache Parquet旨在提供高效且高性能的扁平列式数据存储格式。

大数据流动

2020/08/11

1.3K0

如何使用QueenSono从ICMP提取数据

file key send txt 加密

QueenSono是一款针对ICMP协议的数据提取工具，该工具基于Golang开发，并且只依赖于ICMP协议不受监控这一事实实现其功能。除此之外，该工具也可以用于基本的ICMP检查，或绕过某些身份验证机制，比如说许多公共Wi-Fi在连接到Wi-Fi（如机场Wi-Fi）后用于对用户进行身份验证。

FB客服

2021/10/22

2.6K0

Flink与Spark读写parquet文件全解析

flink 大数据 spark apache https

Parquet 是一种开源文件格式，用于处理扁平列式存储数据格式，可供 Hadoop 生态系统中的任何项目使用。 Parquet 可以很好地处理大量复杂数据。它以其高性能的数据压缩和处理各种编码类型的能力而闻名。与基于行的文件（如 CSV 或 TSV 文件）相比，Apache Parquet 旨在实现高效且高性能的平面列式数据存储格式。

从大数据到人工智能

2022/01/27

6.1K2

Flink与Spark读写parquet文件全解析

GCP 上的人工智能实用指南：第一、二部分

人工智能存储服务模型数据

在本节中，我们将介绍 Google Cloud Platform（GCP）上的无服务器计算基础。我们还将概述 GCP 上可用的 AI 组件，并向您介绍 GCP 上的各种计算和处理选项。

ApacheCN_飞龙

2023/04/26

17.3K0

如何从网站提取数据？

爬虫 tcp/ip 数据处理网站大数据

在当今时代，根据数据情况来制定业务决策是许多公司的头等大事。为了推动这些决策，公司全天候跟踪，监视和记录相关数据。幸运的是，很多网站的服务器上存储了大量公共数据，可以帮助企业在竞争激烈的市场中保持领先地位。

用户7850017

2021/01/29

3.1K0

【笔记php】如何使用PHP从JSON提取数据？

php json 数据

2022年8月26日16点36分如何使用PHP从JSON提取数据？不多bb，直接上示例一 $Json = ' { "type": "fish9.cn", "name": "fish9.cn" }'; $fish = Json_decode($Json,true); echo $fish["type"]; //结果fish9.cn 二 $Json = '{ "type":"fish9.cn", "name":"fish9.cn", "daily":[{

吃猫的鱼Code

2023/02/02

4.9K0

2019年，Hadoop到底是怎么了？

hadoop hive apache 开源

目前云驱动数据处理和分析呈上升趋势，我们在本文中来分析下，Apache Hadoop 在 2019 年是否还是一个可选方案。

王知无-import_bigdata

2019/07/09

1.9K0

2019年，Hadoop到底是怎么了？

[AI新知] Google的AI平台笔记本开始支援R语言

r 语言 tensorflow 机器学习神经网络

Google在今年Next大会中发布了一系列支援机器学习生命周期各阶段的工具，其中包括了AI平台笔记本，这是一个代管服务，供使用者以最新的资料科学与机器学习开发框架，创建JupyterLab执行个体服务，现在Google宣布在AI平台笔记本支援R语言。

阿泽

2019/06/21

6810

[AI新知] Google的AI平台笔记本开始支援R语言

如何使用GitBleed从Git库镜像中提取数据

https 网络安全 git github

GitBleed是一款针对Git库镜像的安全检测工具，该工具包含了多个Shell脚本，可以帮助广大研究人员下载克隆的Git库和Git库镜像，然后从中提取各种数据，并分析两者之间的不同之处。

FB客服

2022/06/08

2.2K0

BigQuery：云中的数据仓库

原文地址：https://dzone.com/articles/bigquery-data-warehouse-clouds

Steve Wang

2018/06/04

5K0

BigQuery：云中的数据仓库

如何从内存提取LastPass中的账号密码

简介首先必须要说，这并不是LastPass的exp或者漏洞，这仅仅是通过取证方法提取仍旧保留在内存中数据的方法。之前我阅读《内存取证的艺术》（The Art of Memory Forensics）时，其中有一章节就有讨论从浏览器提取密码的方法。当你使用标准的用户名/密码方式登录一个网页，通常会发送一个包含了你的用户名及密码的post请求，这些都是以明文方式发送（这里不过多讨论SSL，在SSL内部也是明文发送的）。本文描述如何找到这些post请求并提取信息，当然如果你捕获到浏览器登录，这些方法就很实用。

FB客服

2018/02/09

5.7K0

如何从内存提取LastPass中的账号密码

如何使用Python提取社交媒体数据中的关键词

nltk python爬虫动态代理 python 大数据

嘿，大家好！今天我要和大家分享一个有趣的话题：如何使用Python提取社交媒体数据中的关键词。你知道吗，社交媒体已经成为我们生活中不可或缺的一部分。每天，我们都会在社交媒体上发布各种各样的内容，包括文字、图片、视频等等。但是，这些海量的数据中，如何找到我们感兴趣的关键词呢？

小白学大数据

2023/09/14

4150

vue2项目中如何使用es2020

vue.js ecmascript babel.js 编程算法 javascript

ECMAScript 基于多种原始技术，最著名的是 JavaScript (Netscape) 和 JScript (Microsoft)。截止2022年，正式标准一共发布12次，es2020草案撰写中。

奋飛

2021/12/30

1K0

Kaggle大神带你上榜单Top2%：点击预测大赛纪实（上）

数据挖掘机器学习

大数据文摘作品作者：Gabriel Moreira 编译：朝夕、Katherine Hou、党晓芊、Niki、元元、钱天培作为全世界最知名的数据挖掘、机器学习竞赛平台，Kaggle早已成为数据玩家在学习了基础机器学习之后一试身手的练兵场。那么，参加Kaggle比赛到底是怎样一种体验呢？Kaggle比赛的爱好者们不计其数，很显然这些比赛不会是简单枯燥的模型调参。更进一步地问，Kaggle比赛的优胜者们又是如何取得优异的成绩的呢？优质的算法对大多数Kaggle竞赛来说显然不是制胜法宝——SVM、随机森林

大数据文摘

2018/05/24

1.2K0

相似问题

从dataproc集群将数据加载到bigquery表时出错

10

将数据从BigQuery表加载到Dataproc集群时出错

118

如何将bigquery表加载到dataproc集群

11

从模板创建dataproc集群

12

如何访问Dataproc集群元数据？

216

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例