帮助BigQuery更有效地并行化

文章/答案/技术大牛

发布

1回答

我正在尝试运行一个大型BigQuery查询(粘贴在下面)来生成一个新的派生表。源表有三个数组列，我想计算一个数组的中位数，另一个数组的模式，第三个数组的值计数值。源表有160k行，数组很大。这个解决方案可以为我工作(尽管我需要找出如何将我的并发查询限制提高到100以上)，但是看起来BigQuery应该能够在幕后进行这种并行化。有没有什么功能可以让我帮助BigQuery进行适当的并行化？看起来我正在做的事情并不是非常大，通过适当的并行<

浏览 10提问于2021-01-18得票数 1

1回答

pgcc，C- Loop未并行化:可能没有好处

、、

我需要帮助找出自动并行化的错误-循环不并行化:可能没有好处。我想测试这段代码的并行化，但我不知道如何让编译器有效地将其并行化。// if(x<=1.0){ sum=sum+integral;循环未并行化

浏览 4提问于2011-03-20得票数 0

回答已采纳

1回答

资源超出限制大查询

、、、

SELECT A,B, C, D, E, F ,EXTRACT(MONTH FROM PARSE_DATE('%b',Month)) as G FROM `XXX.YYY.ZZZ` 查询每次处理大约20 GB。我的表ZZZ有396,567,4

浏览 0提问于2017-06-20得票数 2

1回答

为演示模拟数据流的经济高效的方法是什么

、、、

我目前的开发流程是Google Cloud Storage > Dataflow > BigQuery。我计划为预先发布的演示模拟数据流。我的数据集非常大。我是Google Cloud Platform的新手，有没有什么产品可以更经济有效地帮助数据模拟？我也对其他与谷歌兼容的产品持开放态度。谢谢

浏览 1提问于2021-03-02得票数 0

1回答

从BigQuery向Firestore写入数据的快速方法

、

我需要每天从BigQuery加载大约1000万个数据到firestore。执行此操作的最快方法是什么？具有并行单独写入的云函数是一种选择(根据下面的链接)，但在这种情况下，并行化bigquery表将是一个挑战。

浏览 45提问于2021-04-07得票数 0

1回答

BigQuery存储应用编程接口并行运行流

、、

我正在尝试使用BigQuery存储API获取一个巨大的BigQuery表。目前，我使用一个流顺序获取数据。该程序将在使用数十个虚拟CPU的服务器上运行，因此我希望并行化表的获取以获得性能。我使用的bq存储版本是google.cloud.bigquery.storage.v1，我在中看到，为了并行计算多个流，可以指定一个分片策略为BALANCED，但它看起来在v1中并不存在。否则，我如何实现并行会话呢？from google.cloud.bigquery

浏览 0提问于2021-06-15得票数 0

2回答

Python将GCS中的.json文件并行读取到熊猫DF中。

、、、、

TL;DR: asyncio vs multi-processing vs threading vs some other solution，将读取GCS文件的for循环并行化，然后将这些数据附加到熊猫数据中，然后写入BigQuery.我想做一个并行的python函数，它从GCS目录中读取数十万个小.json文件，然后将这些.jsons转换成熊猫数据格式，然后将熊猫数据写入BigQuery表。由于读取/写入这么多小文件的瓶颈，这个过程需要一个目录的24小时.如果我能使它更加并行

浏览 1提问于2020-07-23得票数 3

2回答

从Google BigQuery中提取数据的刷新需要花费很长时间。

、

我们对BigQuery <-> Tableau服务器与live 的结合感到非常满意。但是，我们现在希望在Tableau上使用数据提取程序(500 to )(因为这个数据源不太大，而且使用非常频繁)。这类似于将BigQuery表缓慢导出到单个文件，这可以通过使用“雏菊链”选项()来解决。不幸的是，我们不能使用类似的逻辑与Google BigQuery数据提取刷新在Tableau.我们已经确定了一些办法，但对我们目前的想法并不满意：使用增量刷新：现有的BigQuery表行可以更改:只有在执行完全刷新时，这些更

浏览 5提问于2016-01-04得票数 4

1回答

窗口函数并允许大的结果。

该查询可以在下面找到感兴趣，它是运行在标准谷歌分析数据提取到BigQuery。当我运行这个查询时，它会返回一个“响应太大，无法返回”的消息。指定“允许大的结果”似乎可以纠正这个问题。

浏览 4提问于2014-09-09得票数 2

回答已采纳

1回答

如何跨多个数据集和日期分区从Dataproc写入BigQuery？

、、

我们想转移到BigQuery，所以我的第一个步骤是第五个工作，它读取最终的Avro文件并输出到BigQuery，基本上与当前Cloud输出作业平行。claimsJsonObj = claimsJson.map(s => (null, (new JsonParser).parse(s).getAsJsonObject)) // Write to BigQuery是否有更快的方式从Dataproc写入BigQuery？还是数据流在这方面更快？

浏览 0提问于2016-11-08得票数 0

1回答

并行读取多个流(多处理)

、、、、

我正在尝试使用BALANCED ShardingStrategy来获取超过1个流，并使用python多处理库来并行读取流。但是，当并行读取流时，将返回相同的行数和数据。因为，如果我理解正确的话，在开始读取和完成之前，没有数据被分配给任何流，所以两个并行的流试图读取相同的数据，并且部分数据永远不会被读取。根据文档，可以并行读取多个流和平衡的一个流。但是，我不知道如何并行读取，以及如何将不同的数据分配给每个流我有以下玩具代码： import pandas as pd from google.cloud i

浏览 31提问于2019-09-25得票数 4

1回答

数据流使用案例-并行文件处理

、

我目前有数以千计的json文件需要处理并加载回云存储(可能还有BigQuery)。目前，我们使用运行在计算引擎上的Python应用程序来实现这一点。这些文件不需要分组或聚合，只需要单独处理(添加时间戳、排序条目、为BigQuery添加换行符等)。我只是想要一些简单的方法来并行化这个进程，而不是处理Python子进程和/或启动更多的机器。欢迎任何帮助/意见。谢谢，b/

浏览 10提问于2017-08-08得票数 0

回答已采纳

1回答

GPU如何并行化不同的任务？

我非常有兴趣了解GPU如何并行不同的任务，如实时渲染和训练神经网络。我知道并行化背后的数学原理，但我很想知道GPU到底是如何工作的。实时绘制和训练神经网络是不同的.GPU如何有效地并行这两个任务？

浏览 3提问于2020-05-07得票数 0

回答已采纳

1回答

将BigQuery导出到本地JSON文件并行化

、、、

我们在BigQuery中有一个表，需要导出到一个本地换行符分隔的JSON文件中。我们想利用分区键+并行化来加速这个过程.不知何故。这种方法利用了confId字段，因此我们的BigQuery查询仍然很小。我不太清楚如何在伪代码之外实现这一点，并且在python中找出多线程与多处理和其他并行化的方法，这让我不知所措。我们的最后输出需要一个输出文件，伪代码转储到单独的文件中，但是如果我们可以并行地将其转储到单个文件中，那就太好了。编辑：编辑:在实现解决方案之前，我们试图解决的

浏览 0提问于2021-08-09得票数 1

回答已采纳

2回答

BigQuery中存储的数据的预处理

、、

特别是，我正在尝试将Google Analytics中的数据导入BigQuery。是否可以对存储在BigQuery中的数据使用Dataprep？我见过的几乎每个示例都使用Dataprep来可视化存储在Google Storage中的数据，但没有任何示例涉及到BigQuery。任何帮助都将不胜感激。

浏览 2提问于2018-03-14得票数 0

1回答

CUDA如何获得网格，块，线程大小和并行非方阵计算

、、、

我是CUDA新手，需要帮助理解一些事情。我需要帮助并行化这两个for循环。特别是如何设置dimBlock和dimGrid以使其运行得更快。1024 + j] = A[i * 1024 + j] + B[i * 1024 + j]; }这段代码是一个更大的循环的一部分，也是代码中最简单的部分，所以我决定尝试并行化网格/块/线程的运行，并有效地使用它们。

浏览 0提问于2011-04-13得票数 22

回答已采纳

2回答

数据流如何执行并行处理？

、、、、

我正在使用用于Mysql到Bigquery数据管道的数据流。为此，我使用JDBC来实现Bigquery数据流模板。在使用dataflow GUI创建作业时，我可以明确地设置最大工人数，即工人总数。它如何执行并行处理？我应该如何决定我的工作所需要的工人的数量和类型？

浏览 5提问于2020-11-19得票数 1

1回答

日内表到日表的Bigquery数据传输时长

我正在使用平均每天50~60 GB数据的firebase分析和bigguery。我刚刚发现表的创建日期和上次修改日期之间有1~2天的间隔。这个日期间隔是否意味着单个日表至少需要2天才能从intraday表完全加载？

浏览 0提问于2019-12-30得票数 0

2回答

数据处理- BigQuery对数据Proc+BigQuery

我们在BigQuery表中有大量的原始数据(100亿到4000亿)。我们需要处理这些数据，以转换和创建星型模式表的形式(bigquery中可能是不同的数据集)，然后可以通过atscale访问这些数据。需要以下两种选择之间的利弊： 1.在BigQuery中写入复杂的SQL，读取数据源数据集，然后加载到目标数据集(由Atscale使用)。2.将PySpark或MapReduce与来自Dataproc的BigQuery连接器一起使用，然后将数据加载到BigQuery目标数据集中。

浏览 10提问于2020-01-14得票数 0

2回答