Apache Beam python Bigquery将流式插入更改为批量插入？

文章/答案/技术大牛

发布

1回答

、、、

我正在运行一个apache beam数据流作业，它从存储桶中读取数据，执行一些转换并写入bigquery。但是记录被插入到流缓冲器中。validated_data = (p1 | 'Write to BigQuery t

浏览 17提问于2019-01-12得票数 3

1回答

数据流中的动态bigquery表名

、

基本上，我们希望根据特定列(而不是日期)的值，将一个大的(数十亿行) bigquery表拆分成大量(可以是100k左右)较小的表。我不知道如何在bigquery中高效地完成这项工作，所以我在考虑使用数据流。然后我们需要将PCollection写回bigquery表，表名可以是key_table。所以操作应该是:p| beam.io.Read(beam.io.BigQuerySource()) | beam.map(lambda record：(record‘’split

浏览 9提问于2017-07-13得票数 0

1回答

用数据流批量插入Bigquery

、、、、

我正在使用apache管道，我想用python批量插入bigquery。我的数据来自Pub/Sub，它是无限的。作为我研究的结果，带有触发器的GlobalWindows应该可以解决我的问题。(getAttributes)) p3 = (p2 | 'Filter ' >> beam.Filter(lambda msg: (("xx" in msg) and (msg["xx"].lower(create_di

浏览 0提问于2019-01-04得票数 4

1回答

错误从发布/订阅流到大型查询python

、、、、

我很难创建一个将发布/子源连接到大型查询接收器的dataflowRunner作业，方法是插入以下两个：apache_beam.io.gcp.bigquery.BigQuerySink在github上的beam/sdks/python/apache_beam/example

浏览 0提问于2017-06-29得票数 0

回答已采纳

2回答

Google BigQuery:通过API批量加载

首先，有没有可能通过它的API批量加载到Google BigQuery中？如果是，那要多少钱呢？我将每天插入一百万行。我将使用Python在API中使用'patch‘或'update’。

浏览 0提问于2018-08-15得票数 1

3回答

显示RuntimeException的Apache Beam - Bigquery流插入: ManagedChannel分配站点

、、

我在Google Dataflow中运行了一个Apache beam流水线。它从Kafka中读取数据并将其流式插入到Bigquery。但在bigquery流插入步骤中，它抛出了大量警告-at io.grpc.internal.ManagedChannelOrphanWrapper(BigQueryServicesImpl.java:1255)

浏览 7提问于2021-06-01得票数 5

1回答

在数据流中使用BigQuery beam api向Streaming_insert插入记录时请求大小错误

、、、、

我创建了一个google流作业，从PubSub读取并插入到BigQuery中。我使用JSON将STREAMING_INSERT数据插入到BiqQuery表中。我正面临插入问题，说明请求的大小超过了10 Mb的允许限制。数据流错误如下所示。根据我的理解，每个记录的大小是1-2Mb，根据我的理解，数据流作业将流数据插入到微批处理中，这导致了这一错误。org.apache.beam.sdk.io.gcp.bigquery.

浏览 6提问于2022-10-13得票数 0

回答已采纳

1回答

将查询结果保存到BigQuery中的表的成本？

我很好奇有一个python (QueryJobConfig)可以设置目标表来保存查询结果，所以为了节省这种开销，在GCP中需要花费多少？为了明确起见，保存查询结果可能会被视为插入，因此，如果我经常使用此方法更新表，那么执行流插入将花费很大的成本。

浏览 3提问于2020-04-20得票数 0

回答已采纳

2回答

使用Python的Google数据流

、

尝试实现一个更简单的示例，并在将数据插入到BigQuery时出错from __future__ import absolute_importimport loggingimport refrom apache_beam.options.pipeline_options import PipelineOptions) | &#

浏览 1提问于2018-10-31得票数 0

回答已采纳

1回答

Google流插入到BigQuery命中率限制

、、

我试图使用数据流流处理将记录插入到BigQuery中。存储桶中更改的文件从PubSub读取，然后读取、转换并插入到BigQuery中。但是，我不明白为什么我会看到关于这些配额的消息，因为BigQuery的流插入配额是100万/秒。lib/python3.6/site-packages/apache_beam/io/gcp/bigquery<

浏览 29提问于2020-02-25得票数 3

1回答

数据流:从Pubsub RuntimeException导出到Bigquery

、、、

我正在使用pubsub中的“”特性，通过数据流将一个常规的JSON传递给bigquery。但是，它工作了一秒钟，这意味着一些条目可以正确地传递到bigquery。_comments”、“消息”：“没有这样的字段”、“原因”：“无效”}，“索引”：0}] org.apache.beam.sdk.io.gcp.bigquery.StreamingWriteFn.flushRowsorg.apache.beam.sdk.io.gcp.bigquer

浏览 1提问于2018-03-27得票数 1

回答已采纳

2回答

对于数据流，BigqueryIO.write()和bigquery.insertAll()方法哪个更好

、、、

我正在开发java代码，以便从GCS读取记录并插入到BQ表中，从成本和性能的角度来看，哪个BigqueryIO.write()或bigquery.insertAll()方法更好。

浏览 0提问于2019-03-05得票数 1

1回答

在数据流管道上捕获BigQuery* HttpBadRequestError*

、、

_flush_all_batches() File "/usr/local/lib/python3.8/site-packag

浏览 20提问于2021-02-23得票数 0

回答已采纳

1回答

当从其他谷歌云服务流式传输数据时，有可能修复到BigQuery的失败插入吗？

BigQuery提供insertIds并执行一些重复数据消除，以帮助解决通过API插入数据时的故障情况。根据文档，，所以如果插入失败，可以通过API重试插入，而不用担心可能的(插入的)数据重复。问题是，在谷歌云上，有大量承诺将数据插入BigQuery的服务。例如，对于从许多来源获取数据到BigQuery的推荐堆栈，DataFlow / Apache Beam是其中的一部分。那么，当使用任意

浏览 1提问于2018-06-12得票数 0

1回答

是否遇到从数据流管道到BigQuery的低速流式写入？

、、

在使用流式插入和Python SDK2.23写入BigQuery时，我遇到了意外的性能问题。在没有写入步骤的情况下，流水线在一个工作线程上运行，占用大约20-30%的CPU。添加BigQuery步骤，流水线可以扩展到6个工作进程，所有工作进程都占用70-90%的CPU。我对数据流和波束很陌生，可能这种行为很正常，或者我做错了什么，但在我看来，使用6台机器每秒向BigQuery写入250行数据有点重。我想知道如何才能达到每秒100K行的插入配额。BigQuery

浏览 0提问于2020-09-09得票数 4

1回答

使用谷歌DataFlow直接将数据流式传输到云SQL的简单查询

、、

所以我正在做一个小项目，使用Google Dataflow和apache beam建立一个流管道。我看了一些教程，能够建立一个管道并将其流式传输到BigQuery中，但我希望将其流式传输到一个完整的关系数据库(即: Cloud SQL)中。我在这里有点困惑，因为当我查找如何做到这一点的信息时，所有这些都是指批量写入云SQL，而不是完全流传输。我的简单问题是，我可以直接将数据流式传输到Cloud SQL中，还是必须通过批处理发送。

浏览 4提问于2018-02-02得票数 2

回答已采纳

1回答

BigQuery python客户端使用流API删除一些行

、、

我使用流式应用编程接口(BigQuery Python客户端的insert_row函数)将大约一百万个数据项插入到BigQuery中，但是有一些数据丢失，大约10,000个数据项在插入时丢失。有没有可能BigQuery会丢弃一些数据？因为没有任何插入错误(或任何错误)。

浏览 63提问于2018-12-03得票数 0

2回答

从HTTP请求API拉取数据到Google Cloud

、、、、

我有一个应用程序，从API发送数据给我。数据是半结构化的(json数据) 我想把这个数据发送到Google Big Query，以便储存所有的信息。但是，我不知道如何才能正确地做到这一点。到目前为止，我已经在自己的服务器上使用Node通过POST请求获取数据。你能帮帮我吗？特纳克。

浏览 17提问于2019-10-15得票数 0

1回答

如何在Mongodb中使用Where条件到bigquery数据流模板？

、、、

我已经使用apache beam (Dataflow Runner)编写了mongodb到bigquery数据管道的python代码。######################################### from apache_beam.options.pipeline_optionsimport PipelineOptions

浏览 11提问于2021-01-15得票数 1

回答已采纳

1回答

从Google云存储到Big Query的流式数据流

、、、

我正在尝试使用DataFlow (Java)将数据从云存储插入到Big Query。我可以批量上传数据；但是，我想设置流式上传。因此，当新对象添加到我的存储桶中时，它们将被推送到BigQuery。我已经将PipelineOptions设置为流式传输，它在GCP Console UI中显示数据流管道是流式传输类型。存储桶中最初的一组文件/对象被推送到BigQuery。但是，当我向存储桶中添加新对象时，这些对象不会被推送到<em

浏览 47提问于2018-06-03得票数 3

回答已采纳

点击加载更多