在BigQuery中，分区需要多少行才能有良好的性能？

文章/答案/技术大牛

发布

2回答

google-cloud-platform、google-bigquery、partitioning

我每天都会收到来自应用程序的100行数据。我公司的良好实践建议按天对每个表进行分区。我不认为在我将创建的每天插入上百行的新表上这样做是好的。我想按年对数据进行分区，这样好吗？每个分区需要多少行才能获得最佳性能？

浏览 41提问于2021-08-10得票数 0

1回答

日期分割或日期分割

google-cloud-platform、google-bigquery

我在BigQuery中有很多表是分日期的，包括几年的数据。最近有人告诉我，这是一种旧的优化方法，而且日期分区要快得多。这是正确的吗？我一直在寻找方法来提高对这些数据的查询速度，如果日期分区允许更快的查询，我应该重新构建所有的日期分割GA表作为日期分区吗？我应该两者都做吗？我可以期望看到什么样的性能影响，这真的值得付出努力吗？

浏览 0提问于2019-04-18得票数 1

1回答

BigQuery :在自定义分区字段上运行时处理的数据

google-bigquery

我有一个表，该表按日使用模式中的时间戳字段my_partition_field (而不是摄入时间_PARTITIONTIME)进行分区。执行以下查询时：BigQuery告诉我，“此查询将在运行时处理XX MB”。处理的数据量与该字段不是分区字段相同。但是，如果有相同的表按摄入时间进行分区，并且运行以下查询： SELECT _PARTITIONTIME FROM MY_T

浏览 2提问于2021-10-27得票数 0

回答已采纳

1回答

我能否在BigQuery中按日期分区表进行有效分组？

google-bigquery

我在BigQuery中有一个表BigQuery，它包含50亿行(~80 in )，并在dateTimeCreated列上进行分区，该列的时间戳类型是按日划分的。我想知道表中每天有多少行，所以我构建了这个SQL查询：from `p.d.t` where datetimecreated> '2000

浏览 4提问于2021-09-04得票数 0

回答已采纳

1回答

如何使用时间分区表与模板表和超过4000限制的BigQuery？

google-bigquery

对于流插入，我想使用一个模板表(带有用户id后缀)，它本身就是一个分区表。这样，我就可以使我的表比仅仅使用分区表更小，从而使我的查询更具成本效益。而且，无论我的系统中有多少用户，我的每个用户的查询成本都保持不变。根据的文档若要按日期创建较小的数据集，请使用时间分区表.若要创建不基于日期的较小表，请使用模板表，BigQuery将为您创建这些表。，听起来它既可以是

浏览 0提问于2018-07-24得票数 3

回答已采纳

1回答

RDD中的分区数和Spark中的性能

performance、apache-spark、pyspark、rdd

在Pyspark中，我可以从一个列表创建一个RDD，并决定有多少个分区：sc.parallelize(xrange(0, 10), 4) 我决定对RDD进行分区的分区数量对性能有何影响这如何依赖于我的机器拥有的内核数量？

浏览 21提问于2016-03-05得票数 43

回答已采纳

2回答

Rails中仅附加数据库的软删除

ruby-on-rails、activerecord、google-bigquery、soft-delete

使用Rails和一个仅附加的数据库(Google BigQuery)，软删除的最佳实践是什么？我考虑的模式是为每次更新/删除添加一个新行，并且只收集最近的记录。但我不确定有什么干净的方法能用活跃的记录。还有其他建议的模式/最佳做法吗？

浏览 4提问于2016-04-04得票数 0

回答已采纳

1回答

BigQuery表如何与分区和群集字段一起工作？

google-bigquery

当将TIMESTAMP列指定为分区时，分区将数据保存在磁盘上，允许每次访问。这意味着集群字段与记录保存在磁盘上的方式无关？

浏览 0提问于2019-04-10得票数 0

回答已采纳

5回答

BigQuery表的索引

cloud、google-bigquery

我有一个用例，其中我们在BigQuery中有几个表。现在，我想在BigQuery表中的一个列上实现一个索引。但我找不到足够的文件来做这件事。我发现一些博客和帖子提到BigQuery不支持索引。请帮我找到一个博客或帖子，可以帮助我在BigQuery上实现索引。提前谢谢。

浏览 3提问于2015-02-19得票数 18

回答已采纳

1回答

表MYSQL 5.6.10中的最大分区数

mysql、mysql-5.6

我希望在我的一个表上做一个范围分区，这将是范围分区。我想知道表中的最大分区数是多少。我正在运行MySQL5.6.10。谢谢

浏览 5提问于2016-04-12得票数 2

1回答

火花聚合更多的分区

apache-spark、rdd、coalesce

在处理过程中，我可能有超过5000个分区。在写入S3之前，我希望减少分区的数量，因为每个分区都是作为文件写入的。从文档中可以看出，只有当输出分区的数量小于输入时，才应

浏览 2提问于2016-06-02得票数 1

回答已采纳

2回答

我有一些数据，我想要按日期分区，也要按内部定义的客户端id分区。目前，我们使用逐日表模型来存储此数据。它工作得很好，但查询单个客户端It的速度很慢，成本也很高。我们已经考虑为每个客户端id创建一个表，并在这些表中使用日期分区。这里唯一的问题是，这将迫使我们每天产生数千个加载作业，并提前按客户端id对数据进行分区。这是我想出的一个可能的解决方案:使用逐日表法(例如log_20170110) -Create一个我们用作分区</e

浏览 0提问于2017-01-10得票数 1

1回答

BigQuery表设计最佳实践:结合日期划分和分片？

database-design、google-bigquery、partitioning、sharding

最大的项目是移动跟踪客户事务的事实表。详细问题我不想在BigQuery中复制表，因为我希望为BigQuery优化它。因此，我一直在研究分区、切分和集群。也研究了非正规化，

浏览 3提问于2020-03-24得票数 0

1回答

当从多个分片表中查询超过4亿行时，BigQuery的预期查询响应性能如何？

google-bigquery

我注意到，当从多个分片表查询超过4亿行时，BigQuery性能一直很慢(在30秒到1分钟之间)。我已经在一天中的不同时间(下午、深夜和上午)运行了3次查询，通知响应时间一直很慢。该查询使用group-by字符串字段，该字段可能有许多唯一值，然后按另一个整数值的和降序排序，最后只返回前10个值。我已经在相同的模式和相同的查询上进行了性能计时测试，但是将所有数据存储

浏览 0提问于2013-05-25得票数 1

3回答

Bigquery:分区数据超过2000年限制(更新:现在4000限制)

google-bigquery

来自分区表上的BigQuery页面：每年创建一个不

浏览 3提问于2017-05-22得票数 6

回答已采纳

1回答

谷歌BigTable的模式设计

google-cloud-platform、google-bigquery、bigtable

在我的项目中，我使用的是谷歌BigQuery，它保存了大量的数据。BigQuery列是： account_id，session_id，transaction_id，用户名，事件，时间戳。在我的仪表板中，我根据时间戳(最后30天)获取整个数据。因为我有非常大的数据，所以性能非常慢(获取最后30天的数据需要13秒)。在我的测试<em

浏览 3提问于2022-05-25得票数 0

1回答

创建由一个/多个列分区的BigQuery外部表

google-bigquery、google-cloud-storage

我正在将一个java应用程序从Hadoop/Hive移植到Google /BigQuery。应用程序将avro文件写入hdfs，然后在文件之上创建一个/多个分区的Hive外部表。据我所知，Big目前只支持日期/时间戳分区，不支持嵌套分区。我们现在处理hive的方式是生成ddl，然后使用rest调用执行它。我在BigQuery docs中找不到对创建外部表的支

浏览 0提问于2018-08-17得票数 0

回答已采纳

2回答

是否使用特定的时间戳列将CSV导入BigQuery上的已分区表？

google-bigquery

我想要将一个大型csv导入到一个bigquery分区表中，该表具有一个timestamp类型的列，该列实际上是某个事务的日期，问题是当我加载数据时，它会将所有内容都导入到今天日期的一个分区中。是否可以使用我自己的时间戳值对其进行分区？我怎么能做到这一点。

浏览 0提问于2016-07-05得票数 1

1回答

MySQL -每个表的记录数和每个实例的表数的分片启发式是什么？

mysql、database-design、scalability

我们知道我们需要分片，并且正在寻找可扩展的通用启发式方法。感谢您的指点，并了解您使用的粗略的计算方法

浏览 0提问于2011-05-27得票数 1

回答已采纳

2回答

BigQuery -事实表更新逻辑

google-bigquery

我正致力于在性能和成本分析的大查询上构建原型，为销售业务(激励措施、领导、权利、预测、市场营销、领导等)建立一个DW (星型模式)数据，用于报告和高级分析目的。摄食逻辑旧日的新记录，附加到相应的日临时表中</

浏览 0提问于2016-10-05得票数 4

点击加载更多