如何在数据融合中将模式文件作为宏传递给BigQuery接收器

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、

我正在创建一个数据融合管道，以便将csv数据从GCS加载到BigQuery。对于我的用例，我需要创建一个属性宏，并在运行时提供值。需要了解如何将模式文件作为宏传递到BigQuery接收器。如果我只是简单地将json模式文件路径传递给Macros值，我会得到以下错误。

浏览 14提问于2019-05-23得票数 2

回答已采纳

1回答

数据融合批量流水线中如何将参数传递给宏

、、

我已经看过宏和动态管道，但是这解决了开发或测试环境中的一些场景。然而，如何在生产环境中传递宏标签中的值呢？我的意思是，如果我在BigQuery接收器上有一个宏BigQuery，并且需要在运行时设置一个值，并且考虑到这个数据融合管道是由google或任何其他预定机制触发的。在其他情况下，我可能需要为数据源中的查询导入设置一个日期值：{"bq.

浏览 1提问于2021-10-01得票数 0

回答已采纳

1回答

我使用处理绑定数据并将其输出到BigQuery，我希望它能够处理一些东西并编写一些东西(比如流，而不是批处理)，我可以这样做吗？目前，Dataflow将等待工作进程，而不是所有的数据，并写入BigQuery，我尝试添加FixedWindow并使用Log时间戳param是一个window_timestamp，但它不起作用。BigQueryIO是真的写批，还是只是没有显示在我的仪表板上(背景写流？) 非常感谢!

浏览 0提问于2016-07-15得票数 1

回答已采纳

1回答

如何使用Data Fusion通过http post发送文件

、、、

想要使用数据融合将文件发送到http端点url。在流水线完成时将该http调用作为流水线告警。这不管用。正在从API获取500响应。有没有人能告诉我如何发送这个文件？如果这可以实现与http插件作为接收器，请让我知道步骤。

浏览 3提问于2021-09-13得票数 1

1回答

如何从日志资源管理器中去复制GCP日志？

、

我想把它去重复，最后只剩下Event ID does not exist: 2A但我在中看不到对这种类型的去重复的支持由于行数，我也无法下载分隔的日志文件。

浏览 8提问于2022-04-28得票数 1

回答已采纳

1回答

通过覆盖设置BigQuery到谷歌云存储管道

我正在尝试在数据融合中设置一个非常简单的管道，它从BigQuery获取一个表，然后将数据存储到Google Cloud Storage中。有了下面的管道设置，就很容易了。我们首先读取bigquery表和模式，然后将数据存入Google Cloud Storage存储桶中。这是可行的，但问题是，我运行的每个新传输都会创建一个新映射和一个新文件。我想要做的是用每次新的传输覆盖相同文件路径中的单个文件。我在这个

浏览 0提问于2019-11-06得票数 1

2回答

ApacheBeamJava2.26.0: BigQueryIO‘请求中没有行’

、、

自从Beam 2.26.0更新之后，我们在Java流数据管道中遇到了错误。我们已经调查这个问题很长一段时间了，但无法找出根本原因。当降级到2.25.0时，管道会像预期的那样工作。我们的管道负责吞食，即从Pub/Sub消耗并摄入到BigQuery中。具体来说，我们使用PubSubIO源和BigQueryIO接收器(流模式)。经过调查，我们得出结论，PCollection喂食水槽的数据确实是正确的。今天早些时候，我查看了，并注意到BigQueryIO接收器收到了

浏览 3提问于2021-03-09得票数 2

回答已采纳

1回答

类似于使用日志资源管理器的组

在SQL中，我会执行如下操作 protoPayload.ip,FROM GROUP BY ORDER BY LIMIT 100有什么简单的办法吗？从更大的角

浏览 19提问于2022-04-09得票数 4

回答已采纳

1回答

是否有一种方法可以避免将数据类型从字符串转换为STRUCT<string字符串，文本字符串，为数据存储导入到BigQuery提供STRING>？

、

我们每天都会自动将数据存储备份加载到BigQuery，以便进一步分析，覆盖表。当在BigQuery中导入具有至少一个包含长文本的实体的数据存储类时，该字段将自动转换为STRUCT<string STRING, text STRING, provided STRING>字段，而不是像所有其他文本这就改变了BigQuery表的模式，使得任何进一步的处理或分析都变得非常困难，因为需要对查询进行调整以解决这个问题。我们无法控制数据存储端的文本长度，因此我们需要找到一

浏览 3提问于2022-04-05得票数 2

2回答

如何在数据融合-争论中向输出模式添加空列？

、、

我正在开发一个数据融合管道，它必须从读取JSON，转换一些字段(擦除或重命名其中一些字段)，然后将信息发送到BigQuery表中。我应该如何处理空字段，以便它们出现在输

浏览 6提问于2022-10-19得票数 0

2回答

数据仓库设计(BigQuery)，加载到独立于事实表的维度表中

、、

我想设计一个数据仓库(Data )，其中包含一个事实表和二维表，其中数据集市考虑了一些缓慢变化的维度，并使用了代理键。我想知道如何对此进行建模，以便使对维度表的数据插入能够独立于事实表(在事实表行存在之前插入)。数据将通过数据流从PubSub流流到BigQuery，因此一些维度数据可能会更早到达，需要在事实数据之前插入到维度表中。

浏览 14提问于2022-10-31得票数 0

3回答

将SQL Server表列及其类型导出到BigQuery表的最简单、最快速的方法是什么？

、、

我在SQL Server中有一个包含120列的表，我必须在BigQuery中复制相同的列名及其类型。在Bigquery中为上述内容逐个创建具有其数据类型的表列需要花费大量时间。

浏览 2提问于2019-12-18得票数 0

1回答

监控WriteToBigQuery

、、、

在我的管道中，我使用WriteToBigQuery，如下所示： 'thijs:thijsset.thijstable',{'FailedRows': <PCollection[WriteToBigQuery/Stre

浏览 0提问于2019-11-29得票数 4

回答已采纳

2回答

无法创建批处理管道以将数据从http插件为1.2.1的ZohoCRM获取到BigQuery。Retuns Spark程序‘阶段-1’失败

、、

我在这里的第一篇文章，我是数据融合的新手，我的编程技能很低，甚至没有。为了连接到Zoho CRM，我获得了一个代码，令牌，刷新令牌和这里描述的所需的一切。然后，我通过Postman成功地运行了一个get records请求，它将来自Zoho CRM Accounts模块的记录作为JSON文件返回

浏览 1提问于2020-11-19得票数 1

2回答

基于行数而不是数据大小的数据工厂拆分JSON文件

、

我的问题是，我试图使用Azure (ADF)将数据推送到web服务以写入目标系统。然而，ADF有一个限制，即web服务步骤为1分钟。我需要克服这个问题，我正在尝试将json文件分割成多个文件。进程：步骤4次，1分钟后退出。因此，我希望解决这个问题，我的第一个倾向是将json数据块分割起来，并通过ADF中的一个循环将每个数据

浏览 1提问于2020-12-09得票数 0

1回答

如何处理apache beam管道中的异常？

、、、

我正在用java构建一个apache光束管道，它做了一系列的事情，比如读取文件，创建审计，并将其加载到bigquery。如果我的管道在任何步骤失败，我希望将文件移动到其他文件夹。

浏览 25提问于2021-03-17得票数 0

1回答

如何在perl中将字符串传递给需要文件输入的CLI程序

、、

我正在尝试构建一个SpamAssassin测试，它使用ClamAV工具sigtool来检测附加的MS Office遗留文件(如.xls或.doc )是否真的具有可执行宏。在perl中调用sigtool并将要扫描的文件名传递给它非常容易，如下所示my $scan = `/usr/bin/sigtool --vba测试，我已经在内存中将电子邮件附件作为变量传<e

浏览 2提问于2016-01-15得票数 1

3回答

Azure数据工厂从查询中获取"For Each“组件的数据

、、

情况如下:我的数据库中有一个表，每天接收大约300万行。我们希望定期存档此表，以便表中仅包含最近的8周。其余的数据可以归档到AZure数据湖中。我已经一天一天地学会了如何做到这一点。它应该沿着我想要备份的数据集中存在的七个不同的日期迭代。此数据集从源表复制到存档表。使用SQL查询获取不同的日期并不困难，但是如何将此查询的结果放入用于"For Each“组件的数组中呢？

浏览 24提问于2018-07-31得票数 1

回答已采纳

2回答

在中处理tableSchema of BigQuery中的缺失和新字段

、、、、

我在云函数中将TableSchema定义为Address_schema.fields.append(City_schema)我的数据文件如下所示问题1：如果缺少数据(例如，第2行、第

浏览 2提问于2018-02-20得票数 1

回答已采纳

1回答

是否有一种方法可以为BigQuery中的记录数据类型分配py罗模式？

、、

我的Apache管道的目标是从BigQuery中的表中获取数据，然后将其输出到一个拼花文件中。我试图在Apache管道中使用 PTransform，它要求将schema作为pyarrow.Schema传递。这部分代码将不同类型的模式从BigQuery映射到各种pyarrow模式： 'STRING': pyarrow.string(), 'BYTESpyarrow.

浏览 3提问于2020-08-26得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云