集群在BigQuery中的工作原理

文章/答案/技术大牛

发布

1回答

我有一个表UNITARCHIVE，按日期分区，并按单元、DUID进行集群。表892 Mb的总大小。当我尝试此查询时 SELECT * FROM `test-187010.ReportingDataset.UNITARCHIVE` WHERE duid="RRSF1" and unit="DUNIT" Bigquery告诉我，它将处理892MB，我认为集群应该减少扫描的大小，我理解当我过滤每个日期时，大小大大减少，但我需要整个日期范围。是故意的，还

浏览 14提问于2019-09-17得票数 0

回答已采纳

2回答

用星火BigQuery连接器旋转Dataproc集群

、、

阅读这个repo：下的说明，我按照下面的初始化操作创建一个新的Dataproc集群，并安装了特定版本的Google和BigQuery连接器： gcloud beta dataproc clusters，我必须将外部依赖项添加到我自己在：gs://init-dependencies-big-20824/init-scripts/v.0.0.1/connectors.sh下面的桶中。根据add的指示(我指的

浏览 4提问于2019-10-02得票数 3

回答已采纳

1回答

无法运行对BigQuery的查询-权限错误403

、

我有一个角色为IAM的用户：BigQuery Data Editor在我的数据集中，Share dataset添加了具有Can Edit特权的用户。但是，当我运行访问BigQuery的脚本时，会出现错误403脚本仅从此数据集中的表中运行SELECT查询。我不明白为什么我必须授予BigQuery</e

浏览 0提问于2018-09-27得票数 5

回答已采纳

1回答

从dplyr代码生成BigQuery代码，而不实际执行BigQuery？*

、、、、

我们可以看到关于如何使用tidyverse原理使用bigquery使用R包、bigrquery和dbplyr对数据进行争论的一些简单说明。这是通过使用常规的dplyr代码来实现的，当用户调用%>% collect()时，它会将dplyr代码转换成BigQuery的风格，然后在BigQuery中执行BigQuery代码我想知道是否可以使用这些包来简单地生成原始的我最终想要<e

浏览 2提问于2019-11-24得票数 1

回答已采纳

1回答

是否可以通过将在dataproc上运行的.hql文件访问bigquery表

、

我正在尝试从我的.hql文件访问BigQuery表，我将在Dataproc集群上运行该文件。table_name; 然后，我编写了一个查询，将输出插入到BigQuery中的表中。但是该表存在于BigQuery数据集中。有没有人可以帮忙解决这个问题？

浏览 0提问于2020-02-12得票数 0

1回答

Airflow - bigquery_to_gcs操作员多个输出目的地

、、、

我每天运行一个airflow作业，运行aa查询，并将其保存到大型查询上的表中，然后另一个操作员将输出复制到GCS中。下面是呈现的代码 output_table = f"test.ou

浏览 5提问于2021-12-02得票数 1

1回答

将PySpark数据作为dataproc作业上载到bigquery

、、、、

我试图在Dataproc集群上提交一个PySpark作业。我的工作是将数据上传到bigquery。当我使用集群上的submit作业执行时，我会遇到一个错误，作业失败。但是，当我提供这个罐子时： "gs://spark-lib/bigquery/spark-bigquery-latest_2.12.jar"，在提交作业中的j

浏览 7提问于2022-04-06得票数 1

1回答

在一个位置管理两个关系数据库中的数据

、、、

需要运行涉及两个数据库中的表的临时查询。目前，我们正以两种方式之一这样做：我们已经使用了Google平台(用于使用Postgres服务器的项目)。我们熟悉Google BigQuery (BQ)。我们想要做的事情：--我们希望这两个数据库中的大多

浏览 5提问于2017-03-06得票数 1

回答已采纳

2回答

BigQuery群集表:如何创建多个集群

我的BigQuery表通常使用"where“条件的不同组合在一个或更多个常见列之间进行查询，例如跨列A、B、C (不按顺序排列)。因此，我想分别为A、B和C列添加单独的集群。如何为BigQuery表创建多个集群？(类似于如何在传统的rdbms表上创建多个索引)

浏览 5提问于2020-05-26得票数 3

回答已采纳

2回答

2 TB+表的Bigquery红移迁移

我正在尝试将Redshift迁移到BigQuery。表的大小是2TB+，我正在使用bigquery红移数据传输服务。但是迁移已经运行了5个多小时。还可以看到在Redshift端执行的查询将数据卸载到50MB的区块中。由于无法在红移传输作业中配置块大小参数。将2TB的数据从redshfit传输到BigQuery需要这么多时间，或者可以做一些事情来改进这项工作。有一些像雪花一样<em

浏览 39提问于2019-07-22得票数 0

1回答

测量运行在google BigQuery中的SQL代码的平均运行时间。

、、

由于BigQuery是一个共享资源，因此有可能获得在BigQuery上运行相同代码的不同值。好的，我经常使用的一个选项是关闭查询设置( Cache首选项)中的缓存。这样，查询就不会被缓存。此设置的问题是，如果刷新浏览器或将其闲置，缓存首选项框将再次勾选。无论如何，我与一些正在优化代码的开发人员进行了讨论。简单地说，它们需要运行缓慢的代码，运行5次并获得平均值，然后在优化之后再运行

浏览 7提问于2022-06-16得票数 0

2回答

将大型查询数据导出到内部Hadoop集群中

我们在Big query中有GA数据，我的一些用户想要将它加入到Hadoop的内部数据中，而我们不能移动到Big Query。请告诉我什么是最好的方法。

浏览 3提问于2015-02-18得票数 0

回答已采纳

3回答

Big Query如何存储数百万行包含分类(重复)字符串值的列？

、、、

我们每天大约有一百万条记录流入BQ，并且一个特定的字符串列具有"High“、"Medium”和"Low“的分类值。我想知道的是，Biq查询本身是否做了压缩以外的存储优化，其规模有多大？查找了关于这一点的文档，但找不到对此的解释。

浏览 0提问于2018-07-18得票数 0

2回答

如何在虚拟机GCP中安装spark-bigquery-connector？

、、、、

我在GCP中有一个带有spark install的VM镜像集群Hadoop，但它不是一个dataproc。我可以在不使用dataproc的情况下安装spark bigquery连接器吗？我找到了下载连接器的链接

浏览 0提问于2020-11-14得票数 0

2回答

Dataproc notebook无法导入或导出到BigQuery* :未找到类异常*

、、

这是我正在进行的spark会话。我包含了最新的用于spark big query connector for Dataproc 1.5的jar。from pyspark.sql import SparkSession spark = SparkSession.builder.appName("GCS to BigQuery - Dev") \.config('spark.jars', 'gs://spark-lib/bigquery</

浏览 8提问于2021-02-11得票数 2

回答已采纳

1回答

从bigquery加载表到使用pyspark脚本启动集群

、、、、

我有一个在bigquery中加载的数据表，我想通过一个.py文件将它导入到我的spark集群中。我在中看到有一种方法可以在spark集群中用scala加载bigquery表，但是在pyspark脚本中有方法吗？

浏览 2提问于2015-10-27得票数 4

回答已采纳

1回答

将BigQuery和/或云存储GCS中的数据读入Dataproc

、、

我正在将数据从BigQuery读取到dataproc火花集群中。如果在我的示例中，BigQuery表中的数据最初是从GCS加载的，那么从GCS直接读取数据到星火集群是否更好，因为用于dataproc (newAPIHadoopRDD)的BigQuery连接器首先会将数据下载到中吗

浏览 2提问于2017-09-29得票数 0

回答已采纳

2回答

数据处理- BigQuery对数据Proc+BigQuery

我们在BigQuery表中有大量的原始数据(100亿到4000亿)。我们需要处理这些数据，以转换和创建星型模式表的形式(bigquery中可能是不同的数据集)，然后可以通过atscale访问这些数据。需要以下两种选择之间的利弊： 1.在BigQuery中写入复杂的SQL，读取数据源数据集，然后加载到目标数据集(由Atscale使用)。转换的复杂性包括在</

浏览 10提问于2020-01-14得票数 0

1回答

如何知道bigquery表中的最小集群大小？

我正在比较集群和分区的性能。我认为这是因为集群的最小数据大小受到限制。或者，是否还有其他原因造成访问数据大小的差异？编辑我找到了前谷歌的，的帖子。Post 2说“BigQuery中的每个数据集群都有一个最小的</e

浏览 4提问于2021-04-05得票数 1

1回答

查询执行时间与Java查询调用之间的增量

、、

上下文我们分析了在BigQuery中执行的最后100个查询，这些查询都是在2-3秒内执行的(我们通过调用bq -format=prettyjson显示-j JOBID，结束时间创建时间来分析这一点)。然而，在我们的Java日志中，大多数对bigquery.query的调用都阻塞了5-6秒(10秒不是很平常

浏览 1提问于2017-04-14得票数 3

点击加载更多