在Beam管道中以编程方式生成BigQuery模式

文章/答案/技术大牛

发布

2回答

、、、

我有一个同构字典的集合，我如何在不知道模式的情况下将它们写到BigQuery？ | 'sample_one' >> beam.combiners.Sample.FixedSizeGlobally(1))

浏览 8提问于2017-06-30得票数 3

1回答

使用管道数据查询BigQuery apache_beam

、、、、

我希望使用运行在管道中的数据生成一个查询并在BigQuery上执行它。= ''' email `project_id.dataset_id.table_id` email = {runtime_email}我希望以这样一种方式格式化这个模板，即runtime_email起源于管道数据(元素)。例如，管道从PubSub读取变量runtim

浏览 7提问于2019-10-06得票数 0

回答已采纳

2回答

ApacheBeamJava2.26.0: BigQueryIO‘请求中没有行’

、、

自从Beam 2.26.0更新之后，我们在Java流数据管道中遇到了错误。我们已经调查这个问题很长一段时间了，但无法找出根本原因。当降级到2.25.0时，管道会像预期的那样工作。我们的管道负责吞食，即从Pub/Sub消耗并摄入到BigQuery中。具体来说，我们使用PubSubIO源和BigQueryIO接收器(流模式)。我特别担心以下的改变： BigQuery的DATETIME类型现在映射为B

浏览 3提问于2021-03-09得票数 2

回答已采纳

1回答

在BigQuery客户端库和梁IO之间共享模式定义

、、、

背景:我们使用Beam2.0中的cloud data flow runner将数据ETL到BigQuery中的仓库。我们想要使用BigQuery客户端库(Beta)来创建数据仓库的模式，然后再使用beam管道用数据填充它们。(原因:完全控制表定义，例如分区，轻松创建DW实例，即数据集，ETL逻辑与DW设计的分离，以及代码模块化) 问题: Beam中的BigQury IO使用com.google.api.service

浏览 0提问于2017-06-09得票数 3

3回答

在数据流管道中写入BigQuery时捕获失败

、、、

我有一个从PubSub主题读取事件数据的数据流管道。当收到消息时，我执行一个转换步骤，将事件数据与我想要的BigQuery模式相匹配。但是，如果创建的输入不符合模式，则会遇到问题。目前，我正在进行大量手动检查，以确保输入是否符合模式，但是，在没有考虑到的情况下，我会积累RuntimeErrors。beam.io.gcp.bigquery.WriteToBigQuery(

浏览 4提问于2018-05-08得票数 4

1回答

如何在数据流管道中实现PubSubIO中的流量控制设置

、、、、

在我们的应用程序中，我们在数据流管道中使用PubsubIO从PubSub读取数据。下面是代码。table", ParDo.of(new ReadRawdataFromBiqueryTable())); 但是，当我们在此管道中附加BigQuery读取时，由于BigQuery读取速度较慢，因为我们在ParDo中执行此操作，似乎在PubSub订阅服务器中</e

浏览 12提问于2020-03-25得票数 1

1回答

使用BigQuery将不同方案的多个文件加载到DataFlow中

、、

我有一组带有JSON格式数据的不同模式的.txt文件，所有这些数据都要加载到一个通用的bigquery表中。文件格式很简单，一组文件将有4列，有些列有5列，有些文件有相同的5列，但顺序不同。在GCS中，每种类型的文件都位于单独的文件夹中，每个文件夹中的文件是一致的，在GCS桶子文件夹中，所有文件都是相同类型、相同数量和列顺序的。我能够单独地将这些文件加载到相应的BQ表中，但我需要将它们加载到单个表中

浏览 2提问于2020-10-01得票数 0

回答已采纳

2回答

如何使用BigQuery处理数据流管道中的插入错误？

、、、、

我正在尝试用Dataflow创建一个流管道，它从PubSub主题中读取消息，最终将它们写入BigQuery表中。我不想使用任何数据流模板。目前，我只想在从Google实例执行的Python3脚本中创建一个管道，以执行来自Pubsub的每条消息的加载和转换过程(解析其中包含的记录并添加一个新字段)，最终将结果写入BigQuery表。那么记录的结构(字典中的Python)和字段的数据类型就是BigQuery表所期望的。我想要处理的问题是：

浏览 0提问于2019-11-14得票数 3

回答已采纳

1回答

通过依赖管道处理数据流/Apache梁中的废品

、、、、

我有一个从BigQuery获取数据并将其写入GCS的管道，但是，如果我发现任何拒绝，我想将它们正确地放到Bigquery表中。我正在将拒绝收集到全局列表变量中，然后将列表加载到BigQuery表中。当我以正确的顺序运行管道时，当我在本地运行它时，这个过程可以很好地工作。当我使用dataflowrunner运行它时，它并不保证顺序(我希望pipeline1在pipeline2之前运行。在</e

浏览 5提问于2020-09-19得票数 1

回答已采纳

1回答

监控WriteToBigQuery

、、、

在我的管道中，我使用WriteToBigQuery，如下所示： 'thijs:thijsset.thijstable',然后我得到：AttributeError: 'dict' object has no attribute 'pipeline' 我一定读过

浏览 0提问于2019-11-29得票数 4

回答已采纳

1回答

在Apache管道中运行下一步之前未传播BigQuery模式更改

、、、

我正在使用apache在一个管道中实现三个步骤。如果有来自mongodb数据的新列，从mongodb中读取数据，更新bigquery中的模式，并将该数据的新模式构建为bigquery我是阿帕奇·梁的新手。你能帮个忙吗？谢谢。我的

浏览 4提问于2021-11-18得票数 1

2回答

使用数据流将CoGroupByKey接收器左连接到BigQuery

、、、、

但是，当我将它汇到BigQuery：RuntimeError: BigQuery作业失败时会出现错误。错误结果：<ErrorProto：消息：“读取数据时出错，错误消息: JSON遇到太多错误，放弃。ededcfb43cda4d16934011481e2fd774/project_name.dataset.expeditions/9fe30f70-8473-44bc-86d5-20dfdf59f502‘原因：“运行时无效”写入BigQuery([known_args.input]) | '

浏览 11提问于2022-09-08得票数 1

2回答

是否可以在不同的输出汇上编写单个Pcollection而不使用侧输入？

、、、

我有一个用于编写管道数据的特定用例。我想做一个Pub/Sub订阅，并且希望从这个单一源中读取这些订阅，并在多个接收器上编写Pcollection，而不对其进行另一个Pub/Sub订阅。我一直想建立一个管道，使我在一个数据流中有多个管道并行工作，并编写相同的管道数据，首先是在中，其次是在Bigquery中，只使用一个订阅。相同的代码或引用将对我工作的方向带来帮助和启示。

浏览 10提问于2022-09-29得票数 2

回答已采纳

2回答

来自数据流的BigQuery流以静默方式失败

、、、、

我有一个成功的管道，使用在计算实例上运行的云dataflow将数据从pub/sub传输到bigquery，而不是在实际的dataflow运行器上运行。今天我已经更新了BQ表模式，似乎没有发生新的插入。我可以查看机器上的日志，一切正常- dataflow没有报告任何错误。有没有办法从bigquery访问流日志以检查错误。编辑:总结我的问题是，我是否能够从apache beam SDK或bigquery获得更详细的日志记录，以

浏览 22提问于2019-11-22得票数 2

回答已采纳

1回答

BigQuery代码段中的错误

、

我是数据流的新手，并且尝试在大查询中动态获取表的模式。此外，我还需要在BigQueryIO.write.to()中使用动态目标类来动态获取目标表的名称。如果在执行管道之前为目标表提供了模式，那么它就会起作用。但是为了动态地获取模式，我使用了BigQuery片段，它接受datasetId和tableId作为输入，并返回给定表的模式。当尝试运行带有代码段的管道时，它会给出下面提到的错误。import

浏览 2提问于2018-07-06得票数 0

1回答

使用的大型json文件BigQuery中的问题解析和编写

、、、

我正在尝试创建一个数据流(批处理)，它每小时从读取一个文件，解析它并在BigQuery表中写入一个条目。文件是一个.json，在女巫中，每一行都有一个复杂的json。我创建了一个简单的管道：| "Read file" >> beam.io.ReadFromText(cusom_options.file_name)| &

浏览 4提问于2020-08-21得票数 0

回答已采纳

1回答

阿夫罗GenericRecords，BigQuery和Beam

、、、

我必须编写一些一次性的梁/数据流管道，从BigQuery读取，提取两个字段，然后将它们写到其他地方。与其尝试建立基于BigQuery模式的自动生成的Avro代码，我计划只使用索引到GenericRecord中，然后将我关心的字段转换为它们的类型。不幸的是，我找不到任何关于BigQuery模式类型映射到哪种类型的文档。是否有关于如何在Beam中映射到Java类型的文档？有没有人知道完整的映射/是否有

浏览 1提问于2018-07-21得票数 0

回答已采纳

1回答

从Dataflow (Python)将嵌套模式写入BigQuery

、、、、

我有一份数据流程工作要写给BigQuery。它适用于非嵌套模式，但是对于嵌套模式失败。这是我的数据流管道： p = beam.Pipeline(options=pipeline_options) second = (first

浏览 0提问于2018-02-12得票数 7

回答已采纳

2回答

ReadFromPubSub->CloudStorage-> BigQuery :订阅的大小永远不会减少，似乎只有0.002的订阅到达了BigQuery

、、、

管道使用ReadFromPubSub源读取指向云存储blobs的链接，读取存储在每个文件中的事件，然后将它们插入到BigQuery中： with beam.Pipeline(options=pipeline_options" >> BigQuerySink(project, deadletter_queue=dlq) ) 问题是，即使从PubSub以极好的速度消耗项目，从云存储读取文件的速度也同样快，但它们根本没有以接近<

浏览 30提问于2020-07-04得票数 1

回答已采纳

2回答

流缓冲区- Google BigQuery

、、

我正在开发一个python程序，以像Google模板一样使用。我正在做的是用BigQuery从PubSub编写数据： p = beam.Pipelines: dict(Trama=s)) beam.io.Big

浏览 0提问于2018-11-05得票数 0

回答已采纳

点击加载更多