从云数据流写入BigQuery :无法从输入创建侧输入视图

我使用从云存储中读取一个11.57GB的文件，并将它们写入谷歌BigQuery。花费了大约12分钟和30名工人。然后，我压缩了相同的文件(大小现在变为1.06GB)，然后再使用google从谷歌存储中读取它们，并将它们写入BigQuery。现在用了大约31分钟和同样的30名工人。除了第一个数据流作业中的输入文件被解压缩外，两个数据流作业都有相同的管道选项，但是输入文件在第二个数据流

浏览 3提问于2016-08-06得票数 0

回答已采纳

2回答

对于数据流，BigqueryIO.write()和bigquery.insertAll()方法哪个更好

、、、

我正在开发java代码，以便从GCS读取记录并插入到BQ表中，从成本和性能的角度来看，哪个BigqueryIO.write()或bigquery.insertAll()方法更好。

浏览 0提问于2019-03-05得票数 1

1回答

设计

、

我们需要您对以下场景的数据流设计提供指导。需求:我们需要构建一个数据流作业来读取数据流MS数据库并写入Bigquery。我们需要数据流作业作为输入“表名列表”(源表和目标表名称)来读取和写入数据。问题:在每天的日程安排中，数据流是否可以将表列表(即50个表名)作为输入，并将数据从源复制到目标，还是将其设计为50个独立的数据流作业。数据流是否会自动调整员工数量-而

浏览 4提问于2021-12-13得票数 -1

1回答

在Java中，数据不处于PcollectionView阶段。

、、

从Bigquery读取数据后，我必须将数据作为侧输入发送到下面的下一个level.So，这是我正在执行的步骤- 但是数据并没有流到第3步。为此，我无法将数据发送到下一个级别，我们的输入将进入下一个级别。下面是<em

浏览 5提问于2022-03-24得票数 1

2回答

数据流性能问题

例如，对于我们的一个作业:它从BigQuery中的表中读取270万行，有6个侧输入(BQ表)，执行一些简单的字符串转换，最后将多个输出(3)写入BigQuery。以下是一些统计数据：亚洲地区-

浏览 3提问于2015-04-23得票数 4

回答已采纳

2回答

云数据流作业从一个Bigquery项目读取并写入另一个BigQuery项目

、、、、

我正在GCP上实现一个云数据流作业，需要处理2个GCP项目。输入和输出都是Bigquery分区表。我现在遇到的问题是，我必须从项目A中读取数据并将其写入项目B。

浏览 6提问于2020-05-08得票数 0

回答已采纳

1回答

云数据流中的“侧输入”是否支持从BigQuery视图中读取？

、

尝试将侧输入指向BigQuery视图，而不是直接指向BigQuery表。它不会产生错误，而只是返回0行。视图在BigQuery内部运行良好。例如，给定引用只有1行的表“types_test”的视图：在BigQuery中，它工作得很好：但是，在Dataflow中使用视图作为侧输入返回0行： INFO: Readingfrom BigQuery

浏览 3提问于2015-03-20得票数 3

回答已采纳

1回答

Dataflow sql、Beam SQL (Zeta sql或方解石SQL)之间有什么区别？

、、、

在浏览时，我看到了Dataflow SQL。它和beamSQL有什么不同吗？

浏览 12提问于2020-02-17得票数 1

回答已采纳

1回答

如何在第三方BigQuery中进行请求，并定期在谷歌API上加载结果？我应该使用哪些google服务？

、、

我需要从第三方应用程序接口获取数据，并在谷歌BigQuery中摄取它。也许，我需要通过google服务实现这个过程的自动化，以便定期完成这个过程。另一个疑问是:我是否需要将数据加载到云存储中，或者是否可以直接将其加载到BigQuery？我应该使用数据流并进行任何配置吗？<code>A0</code> 我希望得到关于架构(google服务)的建议，我应该使用它来创建这个管道。例如，使用云函数(从API获取数据)，然后使用服务'X

浏览 17提问于2019-08-24得票数 1

回答已采纳

1回答

从数据流管道写入BQ时的动态表名

作为以下问题和答案的后续问题： “有一个ParDo，它接受这些键并创建BigQuery表，另一个ParDo将数据和流写到表中” 我的理解是，ParDo/DoFn将处理每个元素，在从ParDo/DoFn的processElement中写入时，我们如何指定表名(从侧输入传入的键的函数)？用DoFn更新了，由于c.element().value不是pcollection，所

浏览 0提问于2016-03-14得票数 1

回答已采纳

1回答

我可以从本地服务器(文件或dbs..)创建自定义源&接收器吗？直接去数据流？

我想使自定义源&接收器从本地服务器(文件或dbs)直接数据流。所以我想知道这是否可能。如果可能的话，我应该小心做些什么呢？我从来没有做过定制的源和水槽。但我用过一次GCS数据流。

浏览 3提问于2016-03-16得票数 0

回答已采纳

1回答

由于光束块引用到sqlalchemy，数据流作业失败

、、、、

我们在GCP中创建了一个ETL，它从MySQL读取数据并将其迁移到BigQuery。为了从MySQL中读取数据，我们使用了beam-nuggets库。这个库作为额外的包('--extra_package=beam-nuggets-0.17.1.tar.gz')传递给数据流作业。云函数用于创建数据流作业。代码工作正常，创建了Dataflow作业，数据迁移成功。在sqlalchemy - 1.4的最新版本发布后，我们无法</e

浏览 27提问于2021-03-19得票数 0

回答已采纳

2回答

GCP DataFlow对CloudFunctions的小规模和更少的更新频率

、、

另外，如果我需要做一些自动化的理智测试我应该使用什么数据流或云功能。

浏览 11提问于2022-05-10得票数 2

1回答

连接两个大型数据集的最佳策略

、

我有两个BigQuery表：我希望根据事件属性使用适当的标记标记每个事件(一个事件可以有多个标记)。

浏览 1提问于2015-10-21得票数 2

回答已采纳

2回答

仅从消防局导出原始数据

、、

示例:如果我在消防局中有一个User集合，如： "name": "Jon",} -----------------在dataset中手动创建一个表并从消防局导入备份。这确实使我获得了我想要的BigQuery表视图，但它不会自动更新(就像扩展一样)。我是否必须编写自己的云函数才能将所有数据更新到BigQuery？

浏览 5提问于2021-10-12得票数 1

回答已采纳

1回答

大numpy矩阵作为数据流侧输入

、

我试图用Python编写一个Dataflow管道，它需要一个大的numpy矩阵作为侧输入。矩阵保存在云存储中。理想情况下，每个Dataflow工作人员将直接从云存储加载矩阵。我的理解是如果我说matrix = np.load(LOCAL_PATH_TO_MATRIX)，然后矩阵从我的笔记本电脑发送给每个数据流工作者我如何才能指示每个工作

浏览 3提问于2017-05-13得票数 1

回答已采纳

1回答

在Apache Beam中维护全局状态

、、、、

我们有一个PubSub主题，将事件转移到BigQuery中(尽管特定DB在这里几乎不相关)。事件可能带有新的未知属性，最终应该作为单独的BigQuery列结束。

浏览 0提问于2018-05-31得票数 3

回答已采纳

1回答

数据流作业无法写入不同区域中的BigQuery数据集，即使区域设置为bigquery区域

、、

我们正在编写一个数据流作业，将数据从存储桶中的JSON写入到BigQuery数据集。存储桶和BigQuery数据集都位于区域X中。但是，在区域X中无法使用数据流端点。最近的区域是Y。但是，数据流作业仍然失败，错误如下：所使用的光束版本是2.17，SDK是Python SDK。我们正在创建数据流模板并运行它

浏览 4提问于2020-03-05得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云