腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
尝试
在
数据处理
工作流
中
使用
PySpark
读取
BigQuery
表
时
出现问题
google-cloud-platform
、
pyspark
、
google-cloud-dataproc
我正在
尝试
使用
GCP + Dataproc +
PySpark
自动化一个过程。bash脚本创建的Dataproc
工作流
使用
: #Creating the job gcloud dataproc workflow-templates create dataproc_job_nameinitialization-actions=gs://datastudio_ds/automations-prod/config_files/pip_install.sh 但是,
浏览 28
提问于2021-04-29
得票数 0
1
回答
通过Hadoop输入格式的
BigQuery
连接器示例
apache-spark
、
google-bigquery
、
pyspark
、
google-hadoop
、
google-cloud-dataproc
我有一个存储
在
ETL
表
中
的大型数据集,我想将它加载到一个用于
BigQuery
数据处理
的pypark RDD
中
。 不幸的是,两端的文档似乎都很少,而且超出了我对Hadoop/Spark/
BigQuery
的了解。
浏览 16
提问于2015-07-14
得票数 11
1
回答
Bigquery
日内
表
覆盖过程
google-analytics
、
google-bigquery
、
google-analytics-api
我想
使用
日内
表
,因为根据文档,它们是重写的大约。每天3次。示例:今天的日内
表
是
在
协调世界
时
8
时
创建的。考虑身份是独一无二的。当它被覆盖
时
,比方说
在
16世界
时
,新的uds 4和5就出现了。 在所有行
中
,fullVisitorId、命中号和时间组合是否是唯一的?
浏览 2
提问于2021-06-16
得票数 0
回答已采纳
2
回答
spark连接
bigquery
的身份认证问题?
spark
、
大数据
、
client
、
key
、
url
我是一个初学者;我要用spark/
pyspark
连接
bigquery
读取
数据,但是卡在了身份认证这道关卡;我有身份认证文件:ios-app.json文件,格式是:{ "client_x509_cert_url": *******************请问我该如何写身份认证的spark/
pyspark
浏览 205
提问于2023-09-13
1
回答
Pyspark
:云存储
中
来自多个文件的增量ETL
python
、
apache-spark
、
pyspark
、
google-bigquery
、
google-cloud-dataproc
这些文件存储
在
google云存储上,
pyspark
在
google dataproc上运行,有几个工作节点。 我已经创建了一个
pyspark
文件,它基本上只是迭代文件并按原样加载到
bigquery
中
。我以为我会在
bigquery
表
上看到增量加载,但似乎
pyspark
会将整个gz输入文件合并到dataframe
中
,然后立即处理它。所以我
在
大约90分钟后得到了结果。我如何编写
pyspark</em
浏览 22
提问于2021-10-10
得票数 1
1
回答
py4JJavaError:调用o253.load
时
出错。:java.lang.ClassNotFoundException:未能找到数据源:
bigquery
apache-spark
、
pyspark
、
apache-spark-sql
尝试
从
bigquery
读取
数据到jupyter笔记本,并
使用
吡火花库。apache和java的所有文件都被下载到我的C:驱动器
中
。阅读和观看教程视频,但没有一个似乎是有效的。寻求指导import
pyspark
from
pyspark
import SparkContext,SparkConf StringType, IntegerType,
浏览 9
提问于2022-02-04
得票数 -1
2
回答
Dataproc
中
的
BigQuery
和
Pyspark
pyspark
、
google-bigquery
、
google-cloud-dataproc
我
在
BigQuery
中有一个
表
,我想查询和实现FPgrowth算法。我想首先
使用
dataproc集群的VM实例在上
尝试
它。 我正在寻找一种方法,以直接查询的表格,
在
烧烤
使用
火星雨。我想
使用
产生的查询数据来实现FPGrowth (我已经很熟悉了)。
浏览 6
提问于2017-11-09
得票数 2
回答已采纳
2
回答
数据处理
-
BigQuery
对数据Proc+
BigQuery
google-bigquery
我们
在
BigQuery
表
中有大量的原始数据(100亿到4000亿)。需要以下两种选择之间的利弊: 1.
在
BigQuery
中
写入复杂的SQL,
读取
数据源数据集,然后加载到目标数据集(由Atscale
使用
)。2.将
PySpark
或MapReduce与来自Dataproc的
BigQuery
连接器一起
使用
,然后将数据加载到
BigQuery
目标数据集中。转换的复杂性包括
在
不
浏览 10
提问于2020-01-14
得票数 0
1
回答
在
PySpark
中
写入
BigQuery
表
时
的.partitionBy('id')
python
、
pyspark
、
google-bigquery
现在,我想将结果数据帧
中
的行根据id写到
BigQuery
中
的不同
表
中
。如果我正在写文本文件,我将
使用
write.partitionBy('id'),当我写到
BigQuery
时
,我能做什么?我
尝试
过
使用
python来解决这个问题,但是速度非常慢,我想知道是否有更好的方法来解决这个问题。#!() 我
在
考虑按id分组/分区,然后
浏览 1
提问于2019-11-19
得票数 0
3
回答
以高效的方式从
BigQuery
读取
到Spark?
apache-spark
、
google-bigquery
、
google-cloud-dataproc
、
google-hadoop
当
使用
从
BigQuery
读取
数据
时
,我发现它首先将所有数据复制到Google Cloud Storage。然后将这些数据并行
读取
到Spark
中
,但当
读取
大
表
时
,复制数据阶段需要很长时间。那么有没有更有效的方法将数据从
BigQuery
读取
到Spark
中
呢? 另一个问题:从
BigQuery
阅读由2个阶段组成(复制到GCS,从GCS并行阅读)。
浏览 6
提问于2017-01-04
得票数 7
回答已采纳
1
回答
在
公共
BigQuery
表
上运行缓慢
google-cloud-platform
、
pyspark
、
google-bigquery
、
dataproc
我试图在这个
pySpark
上
使用
(
表
大小: 268.42 GB,行数: 611,647,042)。我将集群的区域设置为US (与
BigQuery
表相同),但是即使
在
集群中
使用
几台高性能机器
时
,它的代码也非常慢。知道为什么吗?我应该在桶
中
创建一个公共
BigQuery
表
的副本吗?如果是,怎么做?from
pyspark
.sql import SparkSession spark = SparkSes
浏览 7
提问于2021-07-02
得票数 0
1
回答
使用
PySpark
覆盖项目ID的
BigQuery
python
、
pyspark
、
google-bigquery
、
google-cloud-dataproc
、
google-cloud-composer
我
在
Google Cloud中
使用
BigQuery
和Dataproc。两者都在同一个项目中,我们称它为" project -123“。我
使用
Composer (Airflow)来运行代码。我有一个简单的python脚本test_script.py,它
使用
pyspark
从
bigquery
公共数据集中的一个
表
中
获取
读取
数据: #.
浏览 19
提问于2020-03-06
得票数 1
1
回答
如何在更新
BigQuery
表
时运行一些代码?
python
、
google-cloud-platform
、
google-bigquery
、
google-cloud-functions
有没有办法
在
更新
BigQuery
表
时运行一些
PySpark
代码?每当
使用
Cloud Functions将文件上传到Google Cloud Storage
时
,我都会运行一些类似的东西,但我
在
BigQuery
文档
中
找不到任何提供类似功能的东西。
浏览 9
提问于2019-06-25
得票数 0
1
回答
BigQuery
到GCS
json
、
google-bigquery
、
google-cloud-storage
我希望能够将
Bigquery
结果作为json文件存储
在
中
。我找不到这样做的方法,所以我要做的是 将GCS
中
的json文件url返回到前端应用程序。答:我不
浏览 1
提问于2019-09-25
得票数 0
回答已采纳
1
回答
从SQLite到
PySpark
的错误解析日期
python
、
sqlite
、
apache-spark
、
pyspark
、
apache-spark-sql
我正在
尝试
从SQLite db文件
中
读取
一些
表
,以便
使用
PySpark
。我
使用
了下面的代码,它可以很好地处理不包含日期的
表
。date (nullable = true) |-- ref_id: string (nullable = true) 当
表
中
包含日期
时
,就会
出现问题
。
在
<em
浏览 8
提问于2022-01-17
得票数 0
回答已采纳
1
回答
从
BigQuery
读取
字符串空值
时
出现问题
apache-spark
、
google-cloud-platform
、
pyspark
、
google-bigquery
、
pyspark-dataframes
目前,我正在
使用
spark从大
表
中
读取
数据,并将其作为csv写入存储桶。我面临的一个问题是,spark不能正确地从bq
读取
空字符串值。它
读取
空字符串值,但在csv
中
,它将该值写为带有双引号的空字符串(如"")。# Load data from
BigQuery
. .option('table'
浏览 3
提问于2020-05-12
得票数 0
1
回答
Google试图从Google电子表格访问
BigQuery
表
源
时
出错
google-cloud-platform
、
google-bigquery
、
datasource
、
google-data-studio
我用Google创建了一个
BigQuery
表
。当我试图从
BigQuery
查询这个
表
时
-一切正常。
在
Data
中
,我创建了一个数据源,它调用了
BigQuery
表
,但是当我试图
在
报表中
使用
这个数据源
时
,我会得到一个错误。然后,我检查了
BigQuery
中
的查询历史以查看Data如何
尝试
访问它,我看到了以下错误消息:
读取</em
浏览 1
提问于2020-09-04
得票数 3
2
回答
在
BigQuery
中
,google源
表
更新的日志看起来如何?
google-sheets
、
logging
、
google-cloud-platform
、
google-bigquery
、
google-cloud-pubsub
我
在
BigQuery
中有几个
表
,它们都来自Google
表
。当Google
表
被更新
时
,
BigQuery
中
的
表
也会自动更新。我正在试图了解此事件的日志在操作日志
中
的样子。
浏览 3
提问于2021-12-19
得票数 0
1
回答
BigQuery
取代了我大部分的火花工作,我是不是遗漏了什么?
sql
、
apache-spark
、
apache-spark-sql
、
google-bigquery
、
bigdata
几年来,我一直
在
使用
机顶盒开发星火工作,我们的团队最近搬到了Google平台,允许我们利用
BigQuery
等的力量。问题是,我现在经常发现自己
在
SQL
中
编写的处理步骤比用
PySpark
编写的要多,因为它是: 如果需要,可以
在
GUI上轻松地运行它最后,我只
在
我有一些不能用SQL来表达的事情
时
才
使用
Spark。为了明确起见,我的
浏览 2
提问于2019-05-07
得票数 18
2
回答
如何将Google
中
的数据附加到
BigQuery
中
?
google-bigquery
每天我都会把一些数据放到谷歌的表格
中
,今天的数据覆盖了昨天的数据。 我根据这个Google创建了一个
BigQuery
表
--初始连接工作,来自工作
表
的数据可以
在
BigQuery
中正确查询。Q:明天谷歌表格
中
的数据将被覆盖。如何将
中
的日常数据从Google附加到
BigQuery
中
,这样,我就可以像归档一样连续地
在
BigQuery
上添加数据了?我没有找到任何此类任务的教程--我发现的所有
浏览 10
提问于2022-05-30
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券