尝试在数据处理工作流中使用PySpark读取BigQuery表时出现问题

、、

我正在尝试使用GCP + Dataproc + PySpark自动化一个过程。bash脚本创建的Dataproc工作流使用： #Creating the job gcloud dataproc workflow-templates create dataproc_job_nameinitialization-actions=gs://datastudio_ds/automations-prod/config_files/pip_install.sh 但是，

浏览 28提问于2021-04-29得票数 0

1回答

通过Hadoop输入格式的BigQuery连接器示例

、、、、

我有一个存储在ETL表中的大型数据集，我想将它加载到一个用于BigQuery数据处理的pypark RDD中。不幸的是，两端的文档似乎都很少，而且超出了我对Hadoop/Spark/BigQuery的了解。

浏览 16提问于2015-07-14得票数 11

1回答

Bigquery日内表覆盖过程

、、

我想使用日内表，因为根据文档，它们是重写的大约。每天3次。示例:今天的日内表是在协调世界时8时创建的。考虑身份是独一无二的。当它被覆盖时，比方说在16世界时，新的uds 4和5就出现了。在所有行中，fullVisitorId、命中号和时间组合是否是唯一的？

浏览 2提问于2021-06-16得票数 0

回答已采纳

2回答

spark连接bigquery的身份认证问题？

、、、、

我是一个初学者；我要用spark/pyspark连接bigquery读取数据，但是卡在了身份认证这道关卡；我有身份认证文件：ios-app.json文件，格式是：{ "client_x509_cert_url": *******************请问我该如何写身份认证的spark/pyspark

浏览 119提问于2023-09-13

1回答

Pyspark :云存储中来自多个文件的增量ETL

、、、、

这些文件存储在google云存储上，pyspark在google dataproc上运行，有几个工作节点。我已经创建了一个pyspark文件，它基本上只是迭代文件并按原样加载到bigquery中。我以为我会在bigquery表上看到增量加载，但似乎pyspark会将整个gz输入文件合并到dataframe中，然后立即处理它。所以我在大约90分钟后得到了结果。我如何编写pyspark</em

浏览 22提问于2021-10-10得票数 1

1回答

py4JJavaError:调用o253.load时出错。：java.lang.ClassNotFoundException:未能找到数据源: bigquery

、、

尝试从bigquery读取数据到jupyter笔记本，并使用吡火花库。apache和java的所有文件都被下载到我的C:驱动器中。阅读和观看教程视频，但没有一个似乎是有效的。寻求指导import pyspark from pyspark import SparkContext,SparkConf StringType, IntegerType,

浏览 9提问于2022-02-04得票数 -1

2回答

Dataproc中的BigQuery和Pyspark

、、

我在BigQuery中有一个表，我想查询和实现FPgrowth算法。我想首先使用dataproc集群的VM实例在上尝试它。我正在寻找一种方法，以直接查询的表格，在烧烤使用火星雨。我想使用产生的查询数据来实现FPGrowth (我已经很熟悉了)。

浏览 6提问于2017-11-09得票数 2

回答已采纳

2回答

数据处理- BigQuery对数据Proc+BigQuery

我们在BigQuery表中有大量的原始数据(100亿到4000亿)。需要以下两种选择之间的利弊： 1.在BigQuery中写入复杂的SQL，读取数据源数据集，然后加载到目标数据集(由Atscale使用)。2.将PySpark或MapReduce与来自Dataproc的BigQuery连接器一起使用，然后将数据加载到BigQuery目标数据集中。转换的复杂性包括在不

浏览 10提问于2020-01-14得票数 0

1回答

在PySpark中写入BigQuery表时的.partitionBy('id')

、、

现在，我想将结果数据帧中的行根据id写到BigQuery中的不同表中。如果我正在写文本文件，我将使用write.partitionBy('id')，当我写到BigQuery时，我能做什么？我尝试过使用python来解决这个问题，但是速度非常慢，我想知道是否有更好的方法来解决这个问题。#!() 我在考虑按id分组/分区，然后

浏览 1提问于2019-11-19得票数 0

3回答

以高效的方式从BigQuery读取到Spark？

、、、

当使用从BigQuery读取数据时，我发现它首先将所有数据复制到Google Cloud Storage。然后将这些数据并行读取到Spark中，但当读取大表时，复制数据阶段需要很长时间。那么有没有更有效的方法将数据从BigQuery读取到Spark中呢？另一个问题:从BigQuery阅读由2个阶段组成(复制到GCS，从GCS并行阅读)。

浏览 6提问于2017-01-04得票数 7

回答已采纳

1回答

在公共BigQuery表上运行缓慢

、、、

我试图在这个pySpark上使用 (表大小: 268.42 GB，行数: 611,647,042)。我将集群的区域设置为US (与BigQuery表相同)，但是即使在集群中使用几台高性能机器时，它的代码也非常慢。知道为什么吗？我应该在桶中创建一个公共BigQuery表的副本吗？如果是，怎么做？from pyspark.sql import SparkSession spark = SparkSes

浏览 7提问于2021-07-02得票数 0

1回答

使用PySpark覆盖项目ID的BigQuery

、、、、

我在Google Cloud中使用BigQuery和Dataproc。两者都在同一个项目中，我们称它为" project -123“。我使用Composer (Airflow)来运行代码。我有一个简单的python脚本test_script.py，它使用pyspark从bigquery公共数据集中的一个表中获取读取数据： #.

浏览 19提问于2020-03-06得票数 1

1回答

如何在更新BigQuery表时运行一些代码？

、、、

有没有办法在更新BigQuery表时运行一些PySpark代码？每当使用Cloud Functions将文件上传到Google Cloud Storage时，我都会运行一些类似的东西，但我在BigQuery文档中找不到任何提供类似功能的东西。

浏览 9提问于2019-06-25得票数 0

1回答

BigQuery到GCS

、、

我希望能够将Bigquery结果作为json文件存储在中。我找不到这样做的方法，所以我要做的是将GCS中的json文件url返回到前端应用程序。答:我不

浏览 1提问于2019-09-25得票数 0

回答已采纳

1回答

从SQLite到PySpark的错误解析日期

、、、、

我正在尝试从SQLite db文件中读取一些表，以便使用PySpark。我使用了下面的代码，它可以很好地处理不包含日期的表。date (nullable = true) |-- ref_id: string (nullable = true) 当表中包含日期时，就会出现问题。在<em

浏览 8提问于2022-01-17得票数 0

回答已采纳

1回答

从BigQuery读取字符串空值时出现问题

、、、、

目前，我正在使用spark从大表中读取数据，并将其作为csv写入存储桶。我面临的一个问题是，spark不能正确地从bq读取空字符串值。它读取空字符串值，但在csv中，它将该值写为带有双引号的空字符串(如"")。# Load data from BigQuery. .option('table'

浏览 3提问于2020-05-12得票数 0

1回答

Google试图从Google电子表格访问BigQuery表源时出错

、、、

我用Google创建了一个BigQuery表。当我试图从BigQuery查询这个表时-一切正常。在Data中，我创建了一个数据源，它调用了BigQuery表，但是当我试图在报表中使用这个数据源时，我会得到一个错误。然后，我检查了BigQuery中的查询历史以查看Data如何尝试访问它，我看到了以下错误消息： 读取</em

浏览 1提问于2020-09-04得票数 3

2回答

在BigQuery中，google源表更新的日志看起来如何？

、、、、

我在BigQuery中有几个表，它们都来自Google表。当Google表被更新时，BigQuery中的表也会自动更新。我正在试图了解此事件的日志在操作日志中的样子。

浏览 3提问于2021-12-19得票数 0

1回答

BigQuery取代了我大部分的火花工作，我是不是遗漏了什么？

、、、、

几年来，我一直在使用机顶盒开发星火工作，我们的团队最近搬到了Google平台，允许我们利用BigQuery等的力量。问题是，我现在经常发现自己在SQL中编写的处理步骤比用PySpark编写的要多，因为它是：如果需要，可以在GUI上轻松地运行它最后，我只在我有一些不能用SQL来表达的事情时才使用Spark。为了明确起见，我的

浏览 2提问于2019-05-07得票数 18

2回答

如何将Google中的数据附加到BigQuery中？

每天我都会把一些数据放到谷歌的表格中，今天的数据覆盖了昨天的数据。我根据这个Google创建了一个BigQuery表--初始连接工作，来自工作表的数据可以在BigQuery中正确查询。Q：明天谷歌表格中的数据将被覆盖。如何将中的日常数据从Google附加到BigQuery中，这样，我就可以像归档一样连续地在BigQuery上添加数据了？我没有找到任何此类任务的教程--我发现的所有

浏览 10提问于2022-05-30得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

通过Hadoop输入格式的BigQuery连接器示例

Bigquery日内表覆盖过程

spark连接bigquery的身份认证问题？

Pyspark :云存储中来自多个文件的增量ETL

py4JJavaError:调用o253.load时出错。：java.lang.ClassNotFoundException:未能找到数据源: bigquery

Dataproc中的BigQuery和Pyspark

数据处理- BigQuery对数据Proc+BigQuery

在PySpark中写入BigQuery表时的.partitionBy('id')

以高效的方式从BigQuery读取到Spark？

在公共BigQuery表上运行缓慢

使用PySpark覆盖项目ID的BigQuery

如何在更新BigQuery表时运行一些代码？

BigQuery到GCS

从SQLite到PySpark的错误解析日期

从BigQuery读取字符串空值时出现问题

Google试图从Google电子表格访问BigQuery表源时出错

在BigQuery中，google源表更新的日志看起来如何？

BigQuery取代了我大部分的火花工作，我是不是遗漏了什么？

如何将Google中的数据附加到BigQuery中？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐