如何用BigQuery测试数据流流水线

文章/答案/技术大牛

发布

1回答

Airflow Composer删除特定的xcom键

、

我正在通过Airflow并行编排多个数据流作业。流水线执行中的任务之一是推送唯一的xcom键来存储每个流水线的临时值，该临时值用于向Bigquery表中插入一个值。我不想删除仍在并行运行的其他数据流作业可能生成的其他xcom键。它们是清除特定xcom密钥的方法吗？

浏览 3提问于2021-09-05得票数 0

2回答

我想测试一下我的管道。我的管道从BigQuery中提取数据，然后将数据存储到GCS和S3中。虽然这里有一些关于流水线测试的信息，，但它没有包括从BigQuery中提取数据的数据模型。有没有好的文档来测试我的流水线？

浏览 15提问于2017-01-25得票数 1

回答已采纳

2回答

我想每天从SQL Server加载大约100个小表(最少5条记录，最多10000条记录)到谷歌BigQuery。我们已经创建了100个数据流水线，每个源表一个流水线。当我们启动一条流水线时，大约需要7分钟来执行。当然，它会启动DataProc，连接到SQL server，并将数据导入Google BigQuery。当我们必须按顺序运行时，需要700分钟吗？当我们尝试在流水线中并行运行时，我们受到网络范围的限制，可能是256/3.1。1流水线启动3个虚拟机的1个

浏览 42提问于2020-07-01得票数 1

1回答

设置管道google数据流的优先级

、

我是谷歌数据流的新手。我有两个数据流流水线来执行两个不同的任务。一个是ETL处理并加载到Bigquery，另一个是从Bigquery读取以聚合报告。我想先运行管道ETL，在它完成后，将运行报告管道，以确保bigquery中的数据是最新的更新。我试着在一条管道上跑，但它不起作用。现在我必须先运行手动ETL，然后再运行报表管道。

浏览 14提问于2017-08-11得票数 0

1回答

数据融合不允许来自Bigquery的Struct类型

、、

我正在尝试创建一个数据流水线，以便从STRUCT类型的bigquery中读取表，但收到了这个错误： 2021-06-01 19:13:53,818 - WARN [service-http-executornamespaces/system/apps/dataprep/services/service/methods/contexts/interoper_prd/connections/interoper_bq_prd/bigquery</

浏览 18提问于2021-06-02得票数 0

1回答

是否遇到从数据流管道到BigQuery的低速流式写入？

、、

在使用流式插入和Python SDK2.23写入BigQuery时，我遇到了意外的性能问题。在没有写入步骤的情况下，流水线在一个工作线程上运行，占用大约20-30%的CPU。添加BigQuery步骤，流水线可以扩展到6个工作进程，所有工作进程都占用70-90%的CPU。我对数据流和波束很陌生，可能这种行为很正常，或者我做错了什么，但在我看来，使用6台机器每秒向BigQuery写入250行数据有点重。我想知道如何才能达到每秒100K行的插入配额。beam.io.BigQueryDispo

浏览 0提问于2020-09-09得票数 4

1回答

从发布/订阅流到BigQuery

、、、、

我正在尝试使用python数据流将一些数据从google PubSub传输到BigQuery中。出于测试目的，我已经将以下代码修改为流管道，方法是设置因此，我将record_ids管道更改为从发布原因：(f215df7c8fcdbb00)：未知流接收器: bigquery我认为这与流水线现在是流类型有关，有人能告诉我如何在流水线中写bigQuery

浏览 1提问于2017-09-07得票数 5

1回答

计算总管道延迟(云函数->发布/订阅->数据流-> BQ)

、、、、

我目前在GCP中有一个管道，它使用云函数摄取数据，将其存入PubSub，在数据流中进行处理，最后将其插入到BigQuery中。我正在尝试计算平均消息从云函数摄取到BigQuery需要多长时间(包括插入时间)。哪些可用指标可以帮助我计算整体流水线延迟？

浏览 2提问于2019-11-21得票数 0

2回答

GCP中的流水线

、、、

我们使用GCP服务(如composer、数据流或云功能等)结合ETL将这些数据流水线化。到居住在同一地区(例如欧洲-伦敦西部)的BigQuery表。

浏览 2提问于2019-10-30得票数 0

回答已采纳

1回答

有没有可能在谷歌数据流中同时输入发布/订阅和BigQuery？

、、、

在我的项目中，我希望使用Google Dataflow中的流水线来处理发布/订阅消息。在清理输入数据时，我也希望有一个来自BigQuery的侧输入。但是BigQuery与流水线不兼容(参见下面的链接)： https://cloud.google.com/dataflow/docs/resources/faq#what_are_the_current_limitations_of_streaming_mode但我只是希望使用BigQuery</em

浏览 29提问于2019-01-10得票数 2

1回答

如何在数据流管道中实现PubSubIO中的流量控制设置

、、、、

在我们的应用程序中，我们在数据流管道中使用PubsubIO从PubSub读取数据。下面是代码。options.getInputSubscription1())) ParDo.of(new ReadRawdataFromBiqueryTable())); 但是，当我们在此管道中附加BigQuery

浏览 12提问于2020-03-25得票数 1

2回答

如何实现动态BigQueryIO输入

、、

我正在使用谷歌数据流上的阿帕奇光束。我的流水线从BigQuery读取数据，但它依赖于执行参数。我应该能够用一个点(经度，纬度)和几个点来运行管道。我尝试在每个点上应用BigQuery read，并将结果合并到一个PCollection中，但我不知道如何将点传递到管道并动态构建它。

浏览 16提问于2019-01-27得票数 0

回答已采纳

1回答

嘲弄BigQueryIO

、

我们有一些数据流作业，它最终将结果写入BigQueryIO。我们怎么能嘲笑BigQueryIO呢？我们使用下面的代码将结果写入BigQuery。.apply(BigQueryIO.Write .to(&quo

浏览 2提问于2015-07-09得票数 1

回答已采纳

1回答

GCP数据流中的流数据处理支持哪些数据源？

、、、

在阅读了很多关于数据流的内容后，我发现只有PubSub和bigquery是GCP数据流中支持流数据处理的数据源。还支持哪些其他数据源？我是否可以使用数据流完成所有的流任务，这些任务可以使用其他ETL工具，如Spark或Kafka？

浏览 26提问于2020-07-01得票数 0

1回答

在Apache Beam中使用无界PCollections从MongoDB changeStream读取数据

、、、、

我正在为我的公司设计一种新的方法来从多个MongoDB数据库中流式传输数据，执行一些任意的初始转换，并将它们汇聚到BigQuery中。我们使用数据流基本上做到了这一点： MongoDB -> Dataflow (Apache Beam, Python) -> BigQuery 我们基本上只需要等待collection.watch()调用作为输入有没有可能从changeStream中读取数据，并让流水线一直等到任务终止，而不是从记录中删除？

浏览 20提问于2020-01-02得票数 3

2回答

使用多字符分隔符将存储在谷歌云存储上的数据加载到BigQuery

、、、

我想将带有多个字符分隔符的数据加载到BigQuery。BQ load命令当前不支持多个字符分隔符。它只支持单个字符分隔符，如'|‘、'$’、'~‘等我知道有一种数据流方法，它将从这些文件中读取数据并写入BigQuery。这种方法在处理数据流时速度很慢，因为我当前必须启动一个不同的数据流作业，以便使用for循环将每个文件写入单独的表。这种方法已经运行了超过24小时，但仍然没有完成。那么，是否有其他方法可以将这些具有多个字符分隔符的多个文件加载到Big

浏览 22提问于2016-08-11得票数 3

回答已采纳

3回答

谷歌数据流每项作业是否有BT写原子？

所以我的问题是，如果我有一个数据流作业，它会写到BigQuery或BigTable，但是作业失败了。数据流是否能够在启动前回滚到状态，或者我的表中可能只是部分数据？但是，我已经尝试过通过数据流将数据转储到BQ中，并且在作业声称成功之前，输出表似乎不会公开给用户。

浏览 6提问于2016-08-05得票数 1

回答已采纳

3回答

触发DataPrep数据流作业的云函数

、

我有一个很小的流水线，我正在尝试执行：我已经通过Dataprep创建了一个数据流作业，因为它有很好的UI，可以在写入GCS表之前执行所有转换(写入BigQuery很好)，并且云函数会在文件上传到BigQuery存储桶时触发。然而，云函数不会触发数据流作业(我在Dataprep中编写的)。请看一下我的云函数的下面的示例代码，如果我能得到任何关于为什么

浏览 64提问于2018-05-08得票数 1

回答已采纳

1回答

Apache与“正常”并行进程

、、、、

(它使用bigquery和存储API)。问题是，它运行在32vCPU/120 it计算引擎实例(VM)上，并使用python的多处理库进行简单的并行处理。我们目前正在考虑切换到数据流，我想知道的是:如果我使用Beam的DirectRunner实现相同的流水线，我应该如何期望性能与当前实现的性能进行比较？它会更快还是更慢?为什么？

浏览 2提问于2019-11-12得票数 1

1回答

使用，如何在GCE计算实例上使用适当的凭据运行？

、

我已经编写了一个数据流应用程序，并且可以在本地和GCE实例上使用我的个人凭据来运行它。

浏览 5提问于2015-07-07得票数 1

回答已采纳

点击加载更多

Airflow Composer删除特定的xcom键