腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
Pyspark
将
数据
帧
写入
bigquery
[
error
gs
]
、
我正在尝试
将
数据
帧
写入
bigquery
表。我已经使用所需的参数设置了sparkSession。在写的时候,我得到了一个错误:代码如下:如果从代码中删除write,我不会得到任何错误,所以错误是在尝试编写时出现的,并且可能与使用
bigquery
浏览 17
提问于2020-11-14
得票数 1
2
回答
在
Bigquery
中使用
pyspark
将
数据
编码为ISO_8859_1
、
、
我的
pyspark
数据
帧
中有多语言字符。在
将
数据
写入
bigquery
之后,它向我显示了奇怪的字符,因为它的默认编码方案(utf-8)。如何使用
pyspark
/ dataproc
将
Bigquery
中的编码更改为ISO_8859_1?
浏览 0
提问于2020-05-06
得票数 1
2
回答
基于客户端id从
BigQuery
导出到CSV
、
我有一个用一系列客户的产品
数据
填充的
BigQuery
表。已使用查询
将
数据
展平。我想以csv格式
将
每个客户端的
数据
导出到Google Cloud Storage存储桶中-这样每个客户端都有自己的csv。我已经研究过使用云函数来查询表,但这将花费超过100,000 GB的
数据
。我还研究了如何
将
客户端直接从源导入到各个表中,但我需要在每个表上运行扁平化查询-这同样会导致很高的
数据
成本。有没有办法限制
数据
的使用?
浏览 0
提问于2021-10-18
得票数 0
1
回答
Pyspark
:云存储中来自多个文件的增量ETL
、
、
、
、
这些文件存储在google云存储上,
pyspark
在google dataproc上运行,有几个工作节点。 我已经创建了一个
pyspark
文件,它基本上只是迭代文件并按原样加载到
bigquery
中。我以为我会在
bigquery
表上看到增量加载,但似乎
pyspark
会将整个gz输入文件合并到dataframe中,然后立即处理它。所以我在大约90分钟后得到了结果。我如何编写
pyspark
代码,以便每次读取文件时,都会将其
写入
bigquery
。总体时间可能不
浏览 22
提问于2021-10-10
得票数 1
1
回答
将
BigQuery
表读入GCP DataProc上的Spark RDD,为什么在newAPIHadoopRDD中缺少这个类
、
、
大约一周前,我能够使用的指南作为模板,
将
Spark作业的
BigQuery
表读入到RDD中,用于在Dataproc集群上运行。从那时起,我现在遇到了缺少类的问题,尽管指南没有受到任何影响。
gs
://hadoop-lib/
bigquery
/
bigquery
-connector-hadoop2-latest.jar之外的信息gcloud dataproc jobs submit
pyspark
\ --cluster $CLUSTER
浏览 0
提问于2019-08-29
得票数 3
2
回答
PySpark
异常与GraphFrames
、
、
我正在用
PySpark
和GraphFrames构建一个简单的网络图(运行在Google上) ("a", "Alice", 34)result = g.labelPropagation(maxIter=5)Py4JJavaError: An
error
occurred while calling o164
浏览 6
提问于2019-10-03
得票数 2
回答已采纳
1
回答
将
3mn行
数据
帧
从Spark上传到
BigQuery
时出错(使用谷歌连接器)
、
、
在
pyspark
中执行完脚本后,我尝试使用
将
数据
帧
保存到
BigQuery
中。尽管它在<1mn行的情况下运行得很流畅,但在运行3mn行时会返回错误(尽管
数据
结构完全相同)。我的代码遵循google示例(但修改为我的项目/
数据
集/
数据
帧
):output_dataset = 'product_r
浏览 22
提问于2016-08-19
得票数 2
2
回答
如何在本地用java连接到spark的Google大查询?
、
、
:142) at com.google.cloud.spark.
bigquery
.repackaged.com.google.cloud.
bigquery
.BigQueryOptions<init>(BigQueryOptions.java:91) at com.google.
浏览 219
提问于2019-12-05
得票数 2
1
回答
PySpark
超时异常
、
我正在上运行
pySpark
,并且我试图使用网络图进行缩放。这是我的配置from
pyspark
.sql import SparkSession
浏览 3
提问于2019-10-07
得票数 2
1
回答
在
PySpark
中
写入
BigQuery
表时的.partitionBy('id')
、
、
现在,我想将结果
数据
帧
中的行根据id写到
BigQuery
中的不同表中。/usr/bin/python from
pyspark
import SparkContext .buil
浏览 1
提问于2019-11-19
得票数 0
1
回答
使用
数据
库火花
将
数据
写入
Bigquery
时出错
、
、
、
我每天运行一项作业,使用Databricks
Pyspark
将
数据
写入
BigQuery
。最近对Databricks ()的配置进行了更新,这导致作业失败。我遵循了所有的步骤,在医生。读取
数据
再次工作,但
写入
会引发以下错误:java.lang.RuntimeException: java.lang.ClassNotFoundException: Class com.google.cloud.hadoop.fs.gcs.GoogleHadoopFS_jsc.hadoopCo
浏览 12
提问于2022-03-24
得票数 0
1
回答
Pyspark
无法找到
bigquery
数据
源
、
、
这是我的
pyspark
配置。我遵循了上面提到的here的步骤,并没有创建一个sparkcontext。config('spark.jars.packages','com.google.cloud.bigdataoss:gcsio:1.5.4') \ .config('spark.jars', '
gs
://spark-lib/
bigquery
/spark-
bigquery
-latest_2.12.ja
浏览 20
提问于2021-09-20
得票数 0
回答已采纳
1
回答
将
PySpark
数据
作为dataproc作业上载到
bigquery
、
、
、
、
我试图在Dataproc集群上提交一个
PySpark
作业。我的工作是
将
数据
上传到
bigquery
。当我使用集群上的submit作业执行时,我会遇到一个错误,作业失败。但是,当我提供这个罐子时: "
gs
://spark-lib/
bigquery
/spark-
bigquery
-latest_2.12.jar",在提交作业中的jar文件参数中,作业成功执行。from
pyspark
.sql impo
浏览 7
提问于2022-04-06
得票数 1
1
回答
使用
BigQuery
连接器与火花
、
我没有得到谷歌的例子我认为代码中有几个错误,比如:应该是:'mapred.bq.output.project.id':'',#
将
数据
写回新的
BigQuery
表。# BigQueryOutputFormat丢弃密钥,因此
将
键设置为None。有一个在
BigQuery
中创建的
数据
集,其名称是我在
浏览 4
提问于2015-12-08
得票数 2
2
回答
如何通过Spark SQL连接
BigQuery
?
、
、
、
、
我有一个简单的python代码,其中包括使用具有我的凭据的JSON文件连接到
bigQuery
。client_x509_cert_url": "https://www.googleapis.com/robot/v1/metadata/x509/clientEmail"现在,我需要将此代码移植到
pyspark
浏览 2
提问于2019-04-10
得票数 2
1
回答
如何
将
bigquery
表加载到dataproc集群
、
、
我是dataproc集群和
PySpark
的新手,因此,在寻找代码以
将
表从
bigquery
加载到集群的过程中,我遇到了下面的代码,并且无法弄清楚我应该为这段代码中的用例修改什么,以及我们在输入目录中提供了什么作为输入from
pyspark
.context import SparkContextimport subprocess_jsc.hadoopConfiguration().get('fs.
g
浏览 1
提问于2020-05-31
得票数 1
1
回答
如何在Dataproc上的提交作业函数中包含jar URI
、
、
、
我正在尝试通过jupyter运行一个
PySpark
作业,我需要创建一个函数来运行该作业。我需要传递一个jar文件,我正在试图弄清楚如何做到这一点。SubmitJobRequest https://cloud.google.com/dataproc/docs/reference/rest/v1beta2/HadoopJob 但是我不能确切地知道如何
将
URI, region, cluster_name, bucket_name, file
浏览 16
提问于2019-10-07
得票数 3
2
回答
Dataproc中的
BigQuery
和
Pyspark
、
、
我在
BigQuery
中有一个表,我想查询和实现FPgrowth算法。我想首先使用dataproc集群的VM实例在上尝试它。 我正在寻找一种方法,以直接查询的表格,在烧烤使用火星雨。我想使用产生的查询
数据
来实现FPGrowth (我已经很熟悉了)。
浏览 6
提问于2017-11-09
得票数 2
回答已采纳
1
回答
为什么需要临时的GCS存储桶才能将
数据
写入
到
BigQuery
:
pyspark
、
、
、
最近,我遇到了一个问题,当我使用
pyspark
将
数据
写入
BigQuery
中时。这里是: 我在寻找这背后的原因,但我做不到。 请澄清。
浏览 6
提问于2021-06-11
得票数 1
回答已采纳
1
回答
如何使用Dataproc在
BigQuery
中创建外部表
、
、
、
我的用例包括使用
Pyspark
代码在
Bigquery
中创建外部表。
数据
源是Google云存储桶,JSON
数据
就在这里。我正在
将
JSON
数据
读入
数据
框架,并希望创建一个外部
Bigquery
表。df_view.write\ .option('table', 'xyz-abc-abc:xy
浏览 3
提问于2020-02-26
得票数 2
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
智聆口语评测
活动推荐
运营活动
广告
关闭
领券