Pyspark无法找到bigquery数据源

文章/答案/技术大牛

发布

1回答

：java.lang.ClassNotFoundException:未能找到数据源: bigquery

、、

尝试从bigquery读取数据到jupyter笔记本，并使用吡火花库。apache和java的所有文件都被下载到我的C:驱动器中。阅读和观看教程视频，但没有一个似乎是有效的。寻求指导import pyspark from pyspark import SparkContext,SparkConf from pyspark.sql.functions import window, col,

浏览 9提问于2022-02-04得票数 -1

1回答

、、

这是我的pyspark配置。我遵循了上面提到的here的步骤，并没有创建一个sparkcontext。/spark-bigquery-latest_2.12.jar,spark-bigquery-with-dependencies_2.12-0.21.1.jar,spark-bigquery-latest_2.11.jar') \ .config('spark.jars', 'postgresql-42.2.23.jar,bigquery-

浏览 20提问于2021-09-20得票数 0

回答已采纳

1回答

如何使用Dataproc在BigQuery中创建外部表

、、、

我的用例包括使用Pyspark代码在Bigquery中创建外部表。数据源是Google云存储桶，JSON数据就在这里。我正在将JSON数据读入数据框架，并希望创建一个外部Bigquery表。df_view.write\ .option('table', 'xyz-abc-abc:xyz_zone.test_table_yyyytemporaryGcsBu

浏览 3提问于2020-02-26得票数 2

回答已采纳

2回答

数据处理- BigQuery对数据Proc+BigQuery

我们在BigQuery表中有大量的原始数据(100亿到4000亿)。我们需要处理这些数据，以转换和创建星型模式表的形式(bigquery中可能是不同的数据集)，然后可以通过atscale访问这些数据。需要以下两种选择之间的利弊： 1.在BigQuery中写入复杂的SQL，读取数据源数据集，然后加载到目标数据集(由Atscale使用)。2.将PySpark或MapReduce与来自Dataproc的BigQuery连接器一起使用，然后将数据加载到BigQuery目标数据集

浏览 10提问于2020-01-14得票数 0

2回答

用星火BigQuery连接器旋转Dataproc集群

、、

阅读这个repo：下的说明，我按照下面的初始化操作创建一个新的Dataproc集群，并安装了特定版本的Google和BigQuery连接器： gcloud beta dataproc clusters但是，使用PySpark笔记本通过Jupyter仍然会导致BigQuery“未找到类”异常。当我直接从终端运行PySpark时，也会发生同样的情况。我能够避免这种异常的唯一方法是在集群的主节点中复制另一个jar (这次是spark-bigquery_2.11-0.8.1-beta-shade

浏览 4提问于2019-10-02得票数 3

回答已采纳

1回答

BigQuery外部数据源查询配额

、

我使用云BigQuery外部数据源设置了一个BigTable表。这很好，并且我能够运行将我的BigTable数据加入到其他一些BigQuery数据的查询。但是，当我对这个表同时运行太多查询时，我会得到以下错误：我无法在链接页面或BigQuery配额和限制页面上找到任何关于并发查询限制的文档。我不会在这里运行那么多的查询--每次最多10次。

浏览 0提问于2018-03-14得票数 0

回答已采纳

1回答

将PySpark数据作为dataproc作业上载到bigquery

、、、、

我试图在Dataproc集群上提交一个PySpark作业。我的工作是将数据上传到bigquery。当我使用集群上的submit作业执行时，我会遇到一个错误，作业失败。但是，当我提供这个罐子时： "gs://spark-lib/bigquery/spark-bigquery-latest_2.12.jar"，在提交作业中的jar文件参数中，作业成功执行。我想要的是找到一种避免在运行时提供这个jar的方法，只需给出.py文件的位置就可以运行作业。我该

浏览 7提问于2022-04-06得票数 1

2回答

Dataproc + BigQuery示例-有可用的吗？

、、

根据Dataproc ，它具有“与BigQuery的本地和自动集成”。我在BigQuery有一张桌子。我希望阅读该表，并使用我创建的Dataproc集群(使用PySpark作业)对其执行一些分析。然后将此分析的结果写回BigQuery。您可能会问：“为什么不直接用BigQuery进行分析呢？”--原因是我们正在创建复杂的统计模型，而SQL太高，无法开发它们。它们有任何Dataproc + BigQuery示例可用吗？我什么都找不到。

浏览 3提问于2015-10-06得票数 11

回答已采纳

1回答

如何将bigquery表加载到dataproc集群

、、

我是dataproc集群和PySpark的新手，因此，在寻找代码以将表从bigquery加载到集群的过程中，我遇到了下面的代码，并且无法弄清楚我应该为这段代码中的用例修改什么，以及我们在输入目录中提供了什么作为输入from pyspark.context import SparkContextimport subprocess_jsc.hadoopConfiguration().get('fs.gs.pr

浏览 1提问于2020-05-31得票数 1

2回答

将PySpark数据写入BigQuery“数字”数据类型

、、、、

为了简单起见，我在BigQuery中有一个表，其中有一个类型为“数字”的字段。当我尝试用一列编写一个NullPointerException.数据帧时，它会继续引发PySpark我尝试将pyspark列转换为int、float、string，甚至编码它，但它一直在抛出NullPointerException即使在花了5到6个小时之后，我也无法自己或在互联网上弄清楚这里的问题是什么，以及将它映射到BigQuery数字列类型的确切的列类型是什么。任何帮助或方向都会有很大帮助。提前谢谢。

浏览 5提问于2022-04-28得票数 0

3回答

BigQuery联邦数据源的API配置

、、、、

我有以下配置，可以很好地将一堆文件加载到BigQuery中： 'configuration'=> { 'sourceUris'=> 'gs我已经使用BigQuery UI成功地做到了这一点，但是需要在代码中运行，因为它最终将是一个日常的自动化过程。我在API文档上遇到了一些麻烦，找不到任何可以参考的好例子。有人能帮忙吗？提前感谢！

浏览 0提问于2018-03-22得票数 0

回答已采纳

1回答

将BigQuery表读入GCP DataProc上的Spark RDD，为什么在newAPIHadoopRDD中缺少这个类

、、

我试图找到缺少的类com/google/cloud/hadoop/repackaged/bigquery/com/google/common/collect/ImmutableList，，尽管我找不到任何关于这个类现在是否被排除在gs://hadoop-lib/bigquery/bigquery-connector-hadoop2-latest.jar之外的信息g

浏览 0提问于2019-08-29得票数 3

1回答

为什么BigQuery AutoDetection检测不到我的架构？

为了测试我的组件，我必须在不知道其结构的情况下将一个文件加载到BigQuery。我在BigQuery中使用了自动检测，它工作得很好。后来，我必须对测试文件中的字段进行散列处理，然后再次将其加载到BigQuery中。当我的字段没有被散列时：有人能解释一下发生了什么吗？

浏览 14提问于2021-05-15得票数 0

1回答

有没有用于Azure Synapse的Python？

、、、

我正在寻找用于Synapse的来执行查询(类似于GCP BigQuery的google BigQuery)，但是我没有发现任何有用的东西，只是在pypi上找到一个不推荐的蓝突触库。是否有类似于Synapse客户端的东西，或者是否可以仅通过Python中的PySpark访问？提前谢谢！！

浏览 4提问于2022-04-05得票数 0

1回答

如何在data Studio data source list中轻松地找到直接的BigQuery表格数据源与自定义查询数据源？

、、

在Google data Studio中，是否可以通过直接连接BigQuery表与自定义查询轻松地找到BigQuery数据源？目前，您必须逐个打开，以查看连接是否为直接连接或使用自定义查询。我必须处理有关50+连接的问题，我想知道是否有更好的方法来查看哪些连接直接连接到BigQuery表，哪些连接使用了自定义查询。我们的目标是为我们使用自定义查询的那个构建自定义表。Google Data Studio数据源选项卡：

浏览 13提问于2020-05-09得票数 0

2回答

如何使用dbt从Google到BigQuery创建外部表？

、、

我想在BigQuery中创建外部表，数据源来自Google。是否可以使用dbt来完成它？在yml文件中，我应该把URI放在哪里？主要问题是，我无法直接在BigQuery中创建它。

浏览 1提问于2022-07-23得票数 0

1回答

如何以编程方式将Kafka主题加载和流到PySpark数据

、、、

可以从主题中提取消息，但无法将其转换为数据文件。任何建议都会有帮助。import pysparkfrom pyspark.context import SparkContext .load()越来越

浏览 1提问于2020-06-12得票数 1

1回答

如何激活Google Sheets API中的聚合选项

、、、

但我无法激活聚合选项。

浏览 13提问于2021-07-14得票数 0

1回答

阅读Azure HDI4.0中的Avro

、、、

我无法正确地提供.jar文件{ "conf": {"spark.jars.packages": "com.databricks:spark-avro_2.11:4.0.0" }} pyspark.sql.utils.AnalysisException：“未能找到数据源:avro.avro是内置的但外部数据源模块，自Spark2.4以来。

浏览 3提问于2019-10-25得票数 3

回答已采纳

1回答