腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
集群
在
BigQuery
中
的
工作
原理
我有一个表UNITARCHIVE,按日期分区,并按单元、DUID进行
集群
。 表892 Mb
的
总大小。当我尝试此查询时 SELECT * FROM `test-187010.ReportingDataset.UNITARCHIVE` WHERE duid="RRSF1" and unit="DUNIT"
Bigquery
告诉我,它将处理892MB,我认为
集群
应该减少扫描
的
大小,我理解当我过滤每个日期时,大小大大减少,但我需要整个日期范围。是故意
的
,还
浏览 14
提问于2019-09-17
得票数 0
回答已采纳
2
回答
用星火
BigQuery
连接器旋转Dataproc
集群
、
、
阅读这个repo:下
的
说明,我按照下面的初始化操作创建一个新
的
Dataproc
集群
,并安装了特定版本
的
Google和
BigQuery
连接器: gcloud beta dataproc clusters,我必须将外部依赖项添加到我自己
在
:gs://init-dependencies-big-20824/init-scripts/v.0.0.1/connectors.sh下面的桶
中
。根据add
的
指示(我指的
浏览 4
提问于2019-10-02
得票数 3
回答已采纳
1
回答
无法运行对
BigQuery
的
查询-权限错误403
、
我有一个角色为IAM
的
用户:
BigQuery
Data Editor
在
我
的
数据集中,Share dataset添加了具有Can Edit特权
的
用户。但是,当我运行访问
BigQuery
的
脚本时,会出现错误403脚本仅从此数据集中
的
表
中
运行SELECT查询。我不明白为什么我必须授予
BigQuery</e
浏览 0
提问于2018-09-27
得票数 5
回答已采纳
1
回答
从dplyr代码*生成
BigQuery
代码,而不实际执行
BigQuery
?
、
、
、
、
我们可以看到关于如何使用tidyverse
原理
使用
bigquery
使用R包、bigrquery和dbplyr对数据进行争论
的
一些简单说明。这是通过使用常规
的
dplyr代码来实现
的
,当用户调用%>% collect()时,它会将dplyr代码转换成
BigQuery
的
风格,然后
在
BigQuery
中
执行
BigQuery
代码 我想知道是否可以使用这些包来简单地生成原始
的
我最终想要<e
浏览 2
提问于2019-11-24
得票数 1
回答已采纳
1
回答
是否可以通过将在dataproc上运行
的
.hql文件访问
bigquery
表
、
我正在尝试从我
的
.hql文件访问
BigQuery
表,我将在Dataproc
集群
上运行该文件。table_name; 然后,我编写了一个查询,将输出插入到
BigQuery
中
的
表
中
。但是该表存在于
BigQuery
数据集中。 有没有人可以帮忙解决这个问题?
浏览 0
提问于2020-02-12
得票数 0
1
回答
Airflow -
bigquery
_to_gcs操作员多个输出目的地
、
、
、
我每天运行一个airflow作业,运行aa查询,并将其保存到大型查询上
的
表
中
,然后另一个操作员将输出复制到GCS
中
。下面是呈现
的
代码 output_table = f"test.ou
浏览 5
提问于2021-12-02
得票数 1
1
回答
将PySpark数据作为dataproc作业上载到
bigquery
、
、
、
、
我试图
在
Dataproc
集群
上提交一个PySpark作业。我
的
工作
是将数据上传到
bigquery
。当我使用
集群
上
的
submit作业执行时,我会遇到一个错误,作业失败。但是,当我提供这个罐子时: "gs://spark-lib/
bigquery
/spark-
bigquery
-latest_2.12.jar",
在
提交作业
中
的
j
浏览 7
提问于2022-04-06
得票数 1
1
回答
在
一个位置管理两个关系数据库
中
的
数据
、
、
、
需要运行涉及两个数据库
中
的
表
的
临时查询。目前,我们正以两种方式之一这样做: 我们已经使用了Google平台(用于使用Postgres服务器
的
项目)。我们熟悉Google
BigQuery
(BQ)。我们想要做
的
事情:--我们希望这两个数据库
中
的
大多
浏览 5
提问于2017-03-06
得票数 1
回答已采纳
2
回答
BigQuery
群集表:如何创建多个
集群
我
的
BigQuery
表通常使用"where“条件
的
不同组合在一个或更多个常见列之间进行查询,例如跨列A、B、C (不按顺序排列)。因此,我想分别为A、B和C列添加单独
的
集群
。如何为
BigQuery
表创建多个
集群
?(类似于如何在传统
的
rdbms表上创建多个索引)
浏览 5
提问于2020-05-26
得票数 3
回答已采纳
2
回答
2 TB+表
的
Bigquery
红移迁移
我正在尝试将Redshift迁移到
BigQuery
。表
的
大小是2TB+,我正在使用
bigquery
红移数据传输服务。但是迁移已经运行了5个多小时。还可以看到
在
Redshift端执行
的
查询将数据卸载到50MB
的
区块
中
。由于无法
在
红移传输作业
中
配置块大小参数。将2TB
的
数据从redshfit传输到
BigQuery
需要这么多时间,或者可以做一些事情来改进这项
工作
。 有一些像雪花一样<em
浏览 39
提问于2019-07-22
得票数 0
1
回答
测量运行在google
BigQuery
中
的
SQL代码
的
平均运行时间。
、
、
由于
BigQuery
是一个共享资源,因此有可能获得
在
BigQuery
上运行相同代码
的
不同值。好
的
,我经常使用
的
一个选项是关闭查询设置( Cache首选项)
中
的
缓存。这样,查询就不会被缓存。此设置
的
问题是,如果刷新浏览器或将其闲置,缓存首选项框将再次勾选。 无论如何,我与一些正在优化代码
的
开发人员进行了讨论。简单地说,它们需要运行缓慢
的
代码,运行5次并获得平均值,然后
在
优化之后再运行
浏览 7
提问于2022-06-16
得票数 0
2
回答
将大型查询数据导出到内部Hadoop
集群
中
我们
在
Big query中有GA数据,我
的
一些用户想要将它加入到Hadoop
的
内部数据
中
,而我们不能移动到Big Query。 请告诉我什么是最好
的
方法。
浏览 3
提问于2015-02-18
得票数 0
回答已采纳
3
回答
Big Query如何存储数百万行包含分类(重复)字符串值
的
列?
、
、
、
我们每天大约有一百万条记录流入BQ,并且一个特定
的
字符串列具有"High“、"Medium”和"Low“
的
分类值。 我想知道
的
是,Biq查询本身是否做了压缩以外
的
存储优化,其规模有多大?查找了关于这一点
的
文档,但找不到对此
的
解释。
浏览 0
提问于2018-07-18
得票数 0
2
回答
如何在虚拟机GCP
中
安装spark-
bigquery
-connector?
、
、
、
、
我
在
GCP中有一个带有spark install
的
VM镜像
集群
Hadoop,但它不是一个dataproc。我可以
在
不使用dataproc
的
情况下安装spark
bigquery
连接器吗?我找到了下载连接器
的
链接
浏览 0
提问于2020-11-14
得票数 0
2
回答
Dataproc notebook无法导入或导出到
BigQuery
:未找到类异常
、
、
这是我正在进行
的
spark会话。我包含了最新
的
用于spark big query connector for Dataproc 1.5
的
jar。from pyspark.sql import SparkSession spark = SparkSession.builder.appName("GCS to
BigQuery
- Dev") \.config('spark.jars', 'gs://spark-lib/
bigquery</
浏览 8
提问于2021-02-11
得票数 2
回答已采纳
1
回答
从
bigquery
加载表到使用pyspark脚本启动
集群
、
、
、
、
我有一个
在
bigquery
中加载
的
数据表,我想通过一个.py文件将它导入到我
的
spark
集群
中
。我
在
中看到有一种方法可以
在
spark
集群
中用scala加载
bigquery
表,但是
在
pyspark脚本中有方法吗?
浏览 2
提问于2015-10-27
得票数 4
回答已采纳
1
回答
将
BigQuery
和/或云存储GCS
中
的
数据读入Dataproc
、
、
我正在将数据从
BigQuery
读取到dataproc火花
集群
中
。如果在我
的
示例
中
,
BigQuery
表
中
的
数据最初是从GCS加载
的
,那么从GCS直接读取数据到星火
集群
是否更好,因为用于dataproc (newAPIHadoopRDD)
的
BigQuery
连接器首先会将数据下载到
中
吗
浏览 2
提问于2017-09-29
得票数 0
回答已采纳
2
回答
数据处理-
BigQuery
对数据Proc+
BigQuery
我们
在
BigQuery
表中有大量
的
原始数据(100亿到4000亿)。我们需要处理这些数据,以转换和创建星型模式表
的
形式(
bigquery
中
可能是不同
的
数据集),然后可以通过atscale访问这些数据。需要以下两种选择之间
的
利弊: 1.
在
BigQuery
中
写入复杂
的
SQL,读取数据源数据集,然后加载到目标数据集(由Atscale使用)。转换
的
复杂性包括
在</
浏览 10
提问于2020-01-14
得票数 0
1
回答
如何知道
bigquery
表
中
的
最小
集群
大小?
我正在比较
集群
和分区
的
性能。我认为这是因为
集群
的
最小数据大小受到限制。或者,是否还有其他原因造成访问数据大小
的
差异? 编辑我找到了前谷歌
的
,
的
帖子。Post 2说“
BigQuery
中
的
每个数据
集群
都有一个最小
的</e
浏览 4
提问于2021-04-05
得票数 1
1
回答
查询执行时间与Java查询调用之间
的
增量
、
、
上下文 我们分析了
在
BigQuery
中
执行
的
最后100个查询,这些查询都是
在
2-3秒内执行
的
(我们通过调用bq -format=prettyjson显示-j JOBID,结束时间创建时间来分析这一点)。然而,
在
我们
的
Java日志
中
,大多数对
bigquery
.query
的
调用都阻塞了5-6秒(10秒不是很平常
浏览 1
提问于2017-04-14
得票数 3
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券