将3mn行数据帧从Spark上传到BigQuery时出错(使用谷歌连接器)

文章/答案/技术大牛

发布

1回答

、、

在pyspark中执行完脚本后，我尝试使用将数据帧保存到BigQuery中。尽管它在<1mn行的情况下运行得很流畅，但在运行3mn行时会返回错误(尽管数据结构完全相同)。我的代码遵循google示例(但修改为我的项目/数据集/数据帧)：output_dataset

浏览 22提问于2016-08-19得票数 2

3回答

以高效的方式从BigQuery读取到Spark？

、、、

当使用从BigQuery读取数据时，我发现它首先将所有数据复制到Google Cloud Storage。然后将这些数据并行读取到Spark中，但当读取大表时，复制数据阶段需要很长时间。那么有没有更有效的方法将数据从BigQuery读取到Spark中呢？另一个问题:从BigQuery

浏览 6提问于2017-01-04得票数 7

回答已采纳

1回答

从bigquery导入到google sheets限制为10k行

我正在尝试从google bigquery导入一个表格到google sheets。数据>数据连接器>大查询，但当我导入它时，它显示限制为10,000行。有没有办法超过这一限制？

浏览 1提问于2020-07-06得票数 0

2回答

通过Apps脚本的大查询API --我在一个较大的表上得到一个错误，但是在一个较小的表上工作。通过应用程序脚本有大小限制吗？

、、

我正在使用Apps脚本向BigQuery发送查询var request = { 'FROM bigquerytest-282720.test

浏览 1提问于2020-07-09得票数 0

1回答

使用BigQuery提取Google Analytics数据并在SQL Server中加载

、、、、

我必须使用BigQuery从Google Analytics中提取数据，并将JSON加载到SQL Server。我知道我们可以在C#中调用GS，在JSON中流式传输数据，并将其上传到Google Storage中，然后使用GSUTIL.exe将JSON文件从GS复制到BigQuery服务器进行处理。我的问题是- 有没有一种方法可以直接将JSON流式传输到ETL服务器，而不是上传到G

浏览 14提问于2017-01-24得票数 0

1回答

从python上载到BigQuery时，某些行出现ASCII0错误

、、

我正在做一个从API到Google BigQuery环境的ETL。在尝试使用pandas_gbq.to_gbq()将熊猫数据帧上传到bigquery时，我遇到了这个错误： google.api_core.exceptions.BadRequest: 400 Error在检查了我收到此错误的行之后，我找不到ASCII符号。我只在Dataframe中的几行中得到了这个错误，所有其他行都可以上载而不会出错

浏览 31提问于2021-10-11得票数 3

1回答

无法在Jupyter笔记本中绘制Pandas数据帧

、、

我正在使用Spark-BigQuery连接器从BigQuery读取数据。我正在尝试获取这些数据的一个子集并绘制它，但是每当我尝试运行该命令时，内核都会断开/重新连接。我所做的与GitHub上的以下tutorial非常相似。我把数据读到了Spark Dataframe。然后，我将数据帧转换为Pandas数据</e

浏览 12提问于2020-04-20得票数 1

回答已采纳

1回答

使用google maps engine连接器将空间图层从QGIS上传到mapsengine时出现HTTP错误400

、、

我安装了用于QGIS的“谷歌地图引擎连接器”-plugin，以便将点数据上传到mapsengine以生成嵌入到网站中的地图。我使用QGIS的原因是因为这个接口是因为我可以直接链接到我的postgis数据库，这比从mapsengine接口工作要方便得多。我的问题:每次尝试将地图从QGIS上传到我的mapsengine配置文件时，我都会收到一个错误： “获取时

浏览 1提问于2014-07-22得票数 3

1回答

从文件系统中填充Properties对象

、、、、

TL:DR或者，是否有一种方法可以将星火数据帧行转换为一组文本键/值对( Scala会理解)？全面问题：属性文件不是本地的，它位于Databricks集群上。尝试从"dbfs:/“或"/dbfs”读取文件时，在使用scala.io.Source库时找不到文件。不过，我能够将该文件读

浏览 4提问于2020-12-29得票数 1

回答已采纳

1回答

在PySpark中写入BigQuery表时的.partitionBy('id')

、、

我正在把一个表格从BigQuery读到Spark。现在，我想将结果数据帧中的行根据id写到BigQuery中的不同表中。如果我正在写文本文件，我将使用write.partitionBy('id')，当我写到BigQuery时，我能做什么？() 我在考虑按id分组/分区，然后使用python API for BigQuery为每个组创建一个新的表，然后<

浏览 1提问于2019-11-19得票数 0

2回答

用于NRT数据应用的Google

、、、、

同时，数据将通过用于分析和ML的流和批处理(持久)管道提供。我读到了谷歌云DataFlow，云存储，BigQuery和Pub。这可能不像部署双向tcp/ip应用程序那样高效(我担心使用http时的延迟)，该应用程序可以

浏览 2提问于2016-02-16得票数 0

1回答

如何复制源Spark模式的空状态并将其强制到目标Spark？

、、、、

我在用数据库。对于较小的数据集，它工作得很好。对于较大的数据集来说，使用collect()函数代替rdd转换显然要糟糕得多。我要指出的是，我在这里要做的唯一一件事是从源模式复制空性部分，并在目标中相应地更改它，以便最终的dataframe。附加上下文：我之所以需要这样做，是因为我需要使用Spark连接器将df_final写入(附加)到谷歌BigQuery表。因此，即使我的Spark

浏览 1提问于2021-12-27得票数 0

回答已采纳

3回答

从火花错误插入到CosmosDB

、、、、

经过与Spark连接器的长期斗争，我能够从CosmosDB收集中读取数据.现在，我想做相反的(插入)，但发现了另一个障碍。下面是我要介绍的示例：。flights = spark.read.format("com.microsoft.azure.cosmosdb.spark").options(快速搜索后，我尝试

浏览 7提问于2018-04-05得票数 4

2回答

从Google BigQuery中提取数据的刷新需要花费很长时间。

、

我们对BigQuery <-> Tableau服务器与live 的结合感到非常满意。但是，我们现在希望在Tableau上使用数据提取程序(500 to )(因为这个数据源不太大，而且使用非常频繁)。这类似于将BigQuery表缓慢导出到单个文件，这可以通过使用“雏菊链”选项()来解决。不幸的是，我们不能使用类似的逻辑与Google BigQuery数据提取刷新在Tabl

浏览 5提问于2016-01-04得票数 4

1回答

在spark中重新分区数据帧不起作用

我有一个cassandra数据库，其中有大约400万条记录。我有3个从机器和一个驱动程序。我想将这些数据加载到spark memory中，并对其进行处理。当我执行以下操作时，它会读取一个从机器中的所有数据(6 Gb中的300MB)，而所有其他从机器的内存都是未使用的。我将数据帧修复为3帧，但数据仍然在一台机器上。因此，由于每个作

浏览 0提问于2015-09-25得票数 0

1回答

R到BigQuery数据上传错误

、

我使用R包"bigrquery“将数据从R数据帧上传到现有的BigQuery表中，如下所示： BigQuery似乎在自动检测数据格式，错误地认为NewID列实际上是一个字符串，它的值类似于"0048

浏览 0提问于2018-07-05得票数 3

回答已采纳

1回答

Cassandra Spark慢写

、、、、

我正在使用Spark Cassandra连接器和python中的数据帧制作一个小的Spark应用程序，但我的写入速度非常慢。然后我将结果写回cassandra (大约5000万行)： result.write.format("org.apache.spark.sql.cassandra").mode('append').options(table="moviescores",

浏览 1提问于2017-03-29得票数 4

1回答

将不带返回值的Python Lambda函数转换为Pyspark

、、、、

在迭代期间，它将字符串、最佳匹配和相似度以及其他一些信息写入bigquery。没有返回值，因为该函数的目的是向bigquery数据集中插入一行。这个过程需要相当长的时间，这就是为什么我想使用Pyspark和Dataproc来加速这个过程。将熊猫数据帧转换为spark很容易。我在注册udf时遇到了问题，因为它没有返回值，而pyspark需要一个返回值。此外，我不知道如何将python中的'

浏览 16提问于2019-07-19得票数 2

回答已采纳

1回答

Spark To Cassandra:将没有空值的稀疏行写到Cassandra

、、、、

问:如何高效地将Spark DataFrame中包含值的列写入Cassanrda？数据帧，但数据帧中的每一行都非常稀疏-除了两个键值之外，特定行可能只有4到5个“描述符”(列0->299)具有一个值。我目前正在将Spark dataframe转换为RDD，并使用saveRdd来写入数据。这是可行的，但是当没有值时，"null“被存储在列中。未设置

浏览 0提问于2018-11-06得票数 2

2回答

触发本地rdd写入到本地Cassandra DB

、、、

我有一个DSE集群，集群中的每个节点都在运行spark和Cassandra。当我从Cassandra加载数据到spark rdd并在Rdd上执行一些操作时，我知道数据将分布到多个节点中。在我的例子中，我想把这些rdds从每个节点直接写到它的本地Cassandra dB表中，有没有办法做到这一点。如果我执行普通的rdd收集，来自spark节点的所有数据将被合并，并返回到带有驱动程序的节点。我不希望发

浏览 3提问于2020-10-20得票数 1

点击加载更多