如何使用包含约x的17+表优化谷歌BigQuery。55 GB的数据？

文章/答案/技术大牛

发布

1回答

sql、google-bigquery、bigdata、analytics

我有大量的数据存储，其中包含几乎20+表。所有表包含以GB为单位的数据。因此，基本上我将所有数据导出到CSV进行分析。我在join查询中有17+表，几乎可以处理数十亿条记录。谷歌表示将处理10 GB数据。现在的问题是查询占用了太多的时间和资源，有时查询会因为资源限制而失败。如何</

浏览 27提问于2021-01-27得票数 0

1回答

如何将.gz文件上传到中？

google-app-engine、google-cloud-datastore、google-bigquery

我有一个90 GB的.csv文件的想法，我想在我的本地计算机上，然后上传到谷歌BigQuery进行分析。从视频中我了解到，我应该首先将中等大小的.csv文件(每个文件约9GB)转换为.gz文件(每个文件约500 GB )，然后将这些.gz文件上传到Google。接下来，我将创建一个空表(在谷歌BigQuery /数据集

浏览 4提问于2017-06-22得票数 1

回答已采纳

3回答

从Google Cloud SQL迁移到Google Bigquery

google-bigquery、google-cloud-sql

我需要将我的两个表从Google Cloud SQL迁移到Google Bigquery。该数据的大小约为1TB，并包含约5个月的股市节拍数据。我从文档中了解到，我可以将数据导出为CSV并将其加载到Bigquery中。我希望按照最佳实践中的建议，在Google Bigquery中进行日期分区。此外，我希望在每个日期的数据迁移后

浏览 1提问于2018-01-30得票数 4

4回答

从s3加载数据的经济高效的BigQuery

amazon-s3、google-cloud-platform、google-bigquery

我每天都需要加载到BigQuery的分区表中，在s3中创建了(2 TB)大小为20k的文件。文件每5分钟滚动一次。将数据传输到BigQuery的最经济高效的方法是什么？我正在寻找在亚马逊网络服务s3到GCP网络出口和实际数据加载的成本优化。

浏览 1提问于2019-12-19得票数 0

0回答

Google云存储/大查询成本估算

python、google-bigquery、google-cloud-platform、google-cloud-storage

我正在尝试估算我的Google Cloud计划的每月总成本。假设我有一个50 GB大小的文件，它驻留在亚马逊S3中。我的</e

浏览 5提问于2017-06-14得票数 2

回答已采纳

1回答

Google BigQuery分析价格

google-cloud-platform、google-bigquery

我想使用Google BigQuery分析大约50 to的数据(不断增长的数据)。但是我想知道关于bigquery定价和分析的两件事。我的数据内容(每行)USER_ID ->唯一的用户ID (例如zc5zta5h7a6sr)TOTAL_CURRENCY ->美元(例如500美元) 等。我想在图表中显示的东西；唯一用户的</em

浏览 8提问于2022-06-11得票数 0

回答已采纳

2回答

如何提高BigQuery的频繁读取？

google-bigquery

我使用BigQuery for Java对一个数据约为5GB的表进行小读取。我所做的查询遵循最标准的SQL，如SELECT foo FROM my-table WHERE bar=$1，结果最多为1行。我需要在一个高频率这样做，因此性能是一个很大的关注。如何对此进行优化？我考虑过周期性地提取整个数据集，因为它只有5GB，但同样地，5GB听起来很需

浏览 5提问于2021-04-16得票数 0

1回答

通过性能改进案例时间和分组。

sqlite、group-by、case-when

我正在使用SQLite3优化我的查询。有一些“情况时”、“组由”、“计数”函数。这是我的数据库文件信息。尺寸:约2GB 对结果有更好的查询吗？ when score = 100 then 'A' when sco

浏览 0提问于2019-07-10得票数 1

回答已采纳

1回答

在BigQuery中将数据插入/创建分块/通配符表

google-bigquery

gcp上有很多关于查询切分/通配符表1的文档，但我似乎不知道如何创建或插入数据，比如表。如何在create语句中使用通配符？类似地，如何进行插入？，但是我专门询问通配符，所以请允许我:) 这可以使用标准SQL吗？如果不是，那么遗留SQL如何？

浏览 4提问于2020-04-09得票数 0

回答已采纳

1回答

Bigquery分区表性能

google-bigquery

我有一个问题，在不同的场景中，尤其是围绕并行化的“罩下”。作为一种选择，我可以每天将数据划分为一个新的表。在这种情况下，我将优化我的开支-因为我从来没有查询比我有更多的数据<

浏览 2提问于2015-07-30得票数 1

回答已采纳

1回答

谷歌大数据CloudSQL或BigQuery每秒钟积极更新一次

google-bigquery、google-cloud-sql、bigdata

因此，现在我正在使用谷歌CloudSQL满足我的需要。因为我的表每天都变大，所以很难管理表中select查询

浏览 0提问于2016-10-27得票数 2

回答已采纳

2回答

谷歌BigQuery优化策略

google-analytics、google-bigquery

我是查询数据从谷歌分析溢价使用谷歌BigQuery。目前，我只有一个查询，用于计算一些指标(如总访问率或转换率)。此查询包含多个嵌套联接子句和嵌套选择。在查询一个表时，我得到了错误：使用和JOIN似乎解决不了这个问题。未来将采用的一种解决方案是只提取查询所需的相关数据，并将其导出到一个单独的

浏览 3提问于2015-06-10得票数 2

回答已采纳

2回答

如何优化MYSQL中的表？

mysql、optimization

我有一个数据库，它包含100个表，其中三个表的大小增加到3GB到8 GB.what。我使用优化表命令，它工作良好，但大小不减少。如何使用pt-online模式更改优化表，以优化</

浏览 8提问于2015-08-03得票数 0

2回答

谷歌BigQuery的局限性？

sql、google-bigquery

谷歌BigQuery的限制是什么？我正在尝试对大约6 GB的数据运行SQL语句，但似乎花费了很长时间(超过一个小时)，然后当我半天后回来检查它时，我发现了错误“请求超时。请重试”。我假设6 GB的数据与其他人可能拥有的数据相比并不是太多，但令我惊讶的是，我会像这样超时。如果有帮助的话，我的SQL查询有点复杂，基本上是计算滚动窗口的唯一计数-我认为这通常需要很长时间

浏览 1提问于2018-05-05得票数 0

1回答

在加载到Bigquery之前自动ETL数据

google-bigquery、google-cloud-functions、google-cloud-storage、google-cloud-dataflow

我将CSV文件添加到GCS存储桶中，每天或每周，每个文件名都包含(日期+特定参数)我们尝试了云函数(我们可以从文件名中获取日期和特定参数值)，但在摄取时无法将其添加到列中有什么建议吗？

浏览 0提问于2020-12-15得票数 0

2回答

MySQL DBs占用了太多的磁盘空间

mysql、ubuntu、innodb

我在UbuntuServer18.04上使用InnoDB运行MySQL服务器5.7.27。我确认了每个表的InnoDB文件都打开了。我有一个mysqldump，它包含我所有的GB，占用了大约1.3GB的磁盘空间。我检查了/var/lib/mysql中新创建的GB的磁盘空间使用情况，它们的合并大小约为14 GB。我运行sudo mysq

浏览 0提问于2019-09-05得票数 2

1回答

如何在Google BigQuery中导出公共维基百科表？

export、wikipedia、google-bigquery

我正在使用Google BigQuery，它提供了很少的公共示例表。其中之一是维基百科修订历史publicdata:samples.wikipedia。只有返回的消息是错误:后端错误。作业中止. 这可能是因为数据大小大约为35 It。所有其他提供的示例都小于25 GB，我已经成功地将它们导出

浏览 4提问于2012-07-06得票数 1

回答已采纳

1回答

我试图连接第三方排名管理系统()与元数据库。Tranco给了我们一个在Google BigQuery上查看记录的选项，但是当我试图将Tranco和Metabase连接起来时，它是在请求我的Google云控制台项目中的数据集。因为Tranco是一个外部数据库源，因此我无法从这里访问dataset Id。如果您想在Google BigQuery中获得tranco的结果，那么运行下面的查询。* from `tranco.daily.dai

浏览 14提问于2022-05-02得票数 1

3回答

如何提高表扫描的BigQuery性能？

google-bigquery

我有一张有八千万份金融交易记录的桌子。我想找到每笔超过1亿美元的交易。这个查询大约需要3秒，这对于我的BI工具来说是行不通的。kc_imports.all WHERE VALUE > 100000000'0.35s user 15% cpu 有什么办法可以大大缩短完成查询的时间吗Google是否提供了某种类型的地图还原工具？我应该在此指出，随后的查询可能有所不同。我可能也想搜索所

浏览 7提问于2016-07-07得票数 2

回答已采纳

2回答

用于优化分区MySQL-表的磁盘使用

mysql、optimization、space、disk、partition

我有一个包含300万行的大型MyISAM表，其大小为31 GB，这是由于每行中有一个10 GB的blob。该表已经有30个分区。我想优化这个表，因为我要删除一些旧数据的行，并调整blobs的大小。我的问题是如何在优化磁盘时使用磁盘：如果我对整个表进行优化，那么MySQL是否

浏览 1提问于2015-08-18得票数 1

回答已采纳

点击加载更多