通过Apache Beam写入动态BigQuery表

文章/答案/技术大牛

发布

1回答

、、

我在运行时获取BigQuery表名，并在流水线末尾将该名称传递给BigQueryIO.write操作以写入该表。我为它编写的代码是： .writeTableRows()当我事先不知道应该将数据放在哪个表中时，如何以正确的格式传递表名？有什么建议吗？谢谢

浏览 11提问于2017-07-11得票数 4

2回答

如何将SCollection元素保存到不同的BigQuery表中？

、、

我需要根据SCollection元素的时间戳将它们保存到不同的每小时BigQuery表中。我试过以下方法- 按(TableName, Iterable[TableRow])对元素进行分组，然后使用BigQueryClient实例将每个Iterable[TableRow]保存到各自的表中。创建一个SCollection[TableName, PCollection[TableRow]]，然后使用BigQueryIO.Write将每个PCollection[TableRow]保存到各自的BigQuery表

浏览 0提问于2017-06-19得票数 0

1回答

读取csv文件并在BigQuery表中填充数据

下面是从csv文件中读取并写入另一个csv文件和BigQuery的代码：import loggingimport apache_beam as beamfrom apache_beam.io import ReadFromTextfrom apache_beam.m

浏览 4提问于2017-07-31得票数 0

回答已采纳

1回答

BigQuery代码段中的错误

、

我是数据流的新手，并且尝试在大查询中动态获取表的模式。此外，我还需要在BigQueryIO.write.to()中使用动态目标类来动态获取目标表的名称。如果在执行管道之前为目标表提供了模式，那么它就会起作用。但是为了动态地获取模式，我使用了BigQuery片段，它接受datasetId和tableId作为输入，并返回给定表的模式。; import org.apache.beam.sdk.io.Tex

浏览 2提问于2018-07-06得票数 0

2回答

Pubsub to Bigquery

、、

我有一个作为流的数据管道: app发布到pubsub，推到BigQuery。在Docs 中的示例中，它们向托管在AppEngine中的工作人员提供pubsub推送，该工作人员随后处理数据(在我的示例中是写入适当的BigQuery表)。但是，是否有可能通过订阅BigQuery表直接推送pubsub呢？

浏览 3提问于2016-11-10得票数 0

回答已采纳

2回答

如何使用BigQuery处理数据流管道中的插入错误？

、、、、

我正在尝试用Dataflow创建一个流管道，它从PubSub主题中读取消息，最终将它们写入BigQuery表中。我不想使用任何数据流模板。import pubsub_v1, import apache_beam.io.gcp.bigqueryimport我想要处理的问题是：如果有些消息带有意外的结构，我希望将管道分叉，并将它们写入</

浏览 0提问于2019-11-14得票数 3

回答已采纳

2回答

无法序列化org.apache.beam.sdk.io.gcp.bigquery.PrepareWrite的数据流DynamicDestinations

、

我试图使用DynamicDestinations写入BigQuery中的分区表，其中分区名为mytable$yyyyMMdd。如果我绕过了动态目的地，并在.to()中提供了一个硬编码的表名，那么它就能工作；但是，对于动态目的地，我得到了以下例外： java.lang.IllegalArgumentException: unableto serialize org.apache.beam.sdk.io.gcp.bigquery.Prep

浏览 8提问于2017-09-11得票数 1

1回答

TypeError连接到Google时，从的BigQuery？

、、、

当尝试在apache的google数据流中初始化python BigQuery Client()时，它给出了一个类型错误：我在apache数据流中使用Python3.7，我必须初始化客户机并手动写入BigQuery，而不是使用ptransform，因为我想使用通过运行时参数传递的动态表名此外，如

浏览 1提问于2019-06-04得票数 1

回答已采纳

1回答

如何修复写入java.lang.RuntimeException的数据流模板作业中的"java.lang.RuntimeException:未能创建作业“？

at org.apache.beam.sdk.io.gcp.bigquery.BigQueryHelpers$PendingJob.runJob ( org/apache.beam.sdk.io.gcp.bigquery( org/apache.beam.sdk.io.gcp.bigquery/BigQueryHelpers.java:153 ) at org.apache.be

浏览 11提问于2022-11-19得票数 2

回答已采纳

1回答

如果在作业运行期间删除了GCloud数据流，则重新创建BigQuery表。

、、、

我已经设置了一个GCloud数据流管道，它使用来自Pub/Sub订阅的消息，将它们转换为表行，并将这些行写入相应的BigQuery表。$DatasetServiceImpl.insertAll(BigQueryServicesImpl.java:816) at org.apache.beam.sdk.io.gcp.bigquery.BigQueryServicesImpl$DatasetServiceImpl.insertAll(BigQuerySer

浏览 1提问于2020-03-21得票数 0

回答已采纳

2回答

如何在GCP数据流中使用python管道代码读取BigQuery表

、、

有没有人可以分享一下用python为GCP数据流编写的管道中读/写bigquery表的语法

浏览 2提问于2018-01-23得票数 6

2回答

如何在apache* beam数据流中将csv转换为字典*

、、、、

我想读取一个csv文件，并将其写入到BigQuery使用阿帕奇光束数据流。为此，我需要将数据以字典的形式呈现给BigQuery。如何使用apache beam转换数据以实现此目的？我的输入csv文件有两列，我想在BigQuery中创建一个后续的两列的表。我知道如何在BigQuery中创建数据，这很简单，我不知道的是如何将csv转换成字典。# Standard imports import apache_beam as

浏览 1提问于2016-12-16得票数 9

回答已采纳

1回答

Dataflow sql、Beam* SQL (Zeta sql或方解石SQL)之间有什么区别？*

、、、

在浏览时，我看到了Dataflow SQL。它和beamSQL有什么不同吗？

浏览 12提问于2020-02-17得票数 1

回答已采纳

1回答

java.lang.IllegalStateException:在数据流中使用bigquery客户端库时，当needsExecutor()为真时调用getTransportChannel()

、、、、

由于某些条件，我需要在数据流作业中使用bigquery客户端库将一些条目写入特定的表，我可以使用bq客户端库查询一个表，没有任何问题，但当我尝试写入该表时，我得到以下错误： [ERROR] Failed(BigQueryServicesImpl.java:1262) at org.apache.beam.sdk.io.gcp.bigquery.BigQueryServicesImpl.access$800 (BigQueryS

浏览 44提问于2021-11-17得票数 0

1回答

Beam.BigQueryIO: numFileShards是干什么用的？

、

当我想将我的未绑定输入从Kafka加载到BigQuery时，我遇到了.withMethod()选项。通过使用Method.FILE_LOAD，我还必须指定触发频率以及非零numFileShards。(BatchLoads.java:212) at org.apache.beam.sdk.io.gcp.

浏览 1提问于2018-09-10得票数 2

回答已采纳

1回答

将数据从csv写入BigQuery时出错

、

我已经编写了一个Python数据流作业，用于从csv文件读取数据并使用该数据填充BigQuery表。但是，每当我运行此作业时，都会弹出一个错误。如果我删除write to Big Query部分，改为写入文件，则代码执行正常，并且表以dict格式写入输出文件。代码如下：import loggingimport apache_beam as beam from apache_<em

浏览 0提问于2017-08-30得票数 0

3回答

显示RuntimeException的Apache* Beam - Bigquery流插入: ManagedChannel分配站点*

、、

我在Google Dataflow中运行了一个Apache beam流水线。它从Kafka中读取数据并将其流式插入到Bigquery。(BigQueryServicesImpl.java:1255)at org.apache.beam.sdk.io.

浏览 7提问于2021-06-01得票数 5

1回答

使用DataFlow将ISO-8859-1加载到BigQuery时出现问题(Apache* Beam)*

、、

我正在尝试使用DataFlow将ISO-8859-1文件加载到BigQuery中。我已经用Apache Beam Java构建了一个模板。一切运行正常，但当我检查Bigquery表的内容时，我发现一些字符，如'ñ‘或重音'á'，'é’等没有正确存储，它们被存储为�。在写入BigQuery之前，我已经尝试了几次字符集更改。有没有人知道是否有可能使用Apache Beam将这种文件加载到B

浏览 15提问于2019-07-23得票数 0

1回答

对apache_beam.io.gcp.bigquery.ReadFromBigQuery的动态查询

、、

我需要在Apache管道中运行一个对BigQuery的动态查询。应该根据消息中的值在运行时对查询进行评估。即select * from mytable where mycolumn = << dynamic value >>from apache_beam import Create, Pipeline from apache_beam</em

浏览 3提问于2022-04-25得票数 0

2回答

BigQuery自动检测模式和创建表，在apache_beam中发生流作业时

、、、

我有一个信息流进来，想要将它们记录在BigQuery中，但问题是用户可以在启动apache_beam作业之前定义一个新的表名。此外，流中的架构可以更改超时。我想知道是否有人使用Python实现了流apache_beam作业的自动表创建和模式更改。

浏览 12提问于2022-09-27得票数 0

点击加载更多