Apache Beam将字典加载到BigQuery

文章/答案/技术大牛

发布

2回答

、、

我有问题加载数据到BiqQuery使用Apache光束。代码正在进行API调用，这将返回应该是字典的行(如下所示)。itemId":"5678"},"cost":[{"Type":"1","TypeName":"example","price":0.0}]} 管道代码如下： class callAPI(beam.DoFnjson.loads(json.dumps(res.

浏览 9提问于2021-03-26得票数 0

回答已采纳

2回答

我想读取一个csv文件，并将其写入到BigQuery使用阿帕奇光束数据流。为此，我需要将数据以字典的形式呈现给BigQuery。如何使用apache beam转换数据以实现此目的？我的输入csv文件有两列，我想在BigQuery中创建一个后续的两列的表。我知道如何在BigQuery中创建数据，这很简单，我不知道的是如何将csv转换成字典。# Standard imports import apache_bea

浏览 1提问于2016-12-16得票数 9

回答已采纳

1回答

使用DataFlow将ISO-8859-1加载到BigQuery时出现问题(Apache* Beam)*

、、

我正在尝试使用DataFlow将ISO-8859-1文件加载到BigQuery中。我已经用Apache Beam Java构建了一个模板。一切运行正常，但当我检查Bigquery表的内容时，我发现一些字符，如'ñ‘或重音'á'，'é’等没有正确存储，它们被存储为�。在写入BigQuery之前，我已经尝试了几次字符集更改。有没有人知道是否有可能使用Apache Beam将这种文

浏览 15提问于2019-07-23得票数 0

1回答

为什么WriteToBigQuery没有显示任何错误？

、

最后，在发现我的模式不正确后，我成功地将数据上传到了BQ。然而，它很难调试，因为我的DirectRunner没有任何日志。我如何可以调试写WriteToBigQuery时，我有例如。错误的模式？我的代码： lines = messages | 'decode' >> beam.Map(lambda x: x.decode('utf-8')) output = ( lines| 'process' >> beam.FlatMap(lambda xml: [

浏览 14提问于2019-06-17得票数 2

1回答

TensorFlow数据验证和BigQuery

、、、

但是，我的原始数据表在BigQuery上(超过30 as )，我不能将其加载为pandas数据帧。如何将数据从Bigquery加载到我的笔记本中，以便使用TensorFlow数据验证对其进行分析？

浏览 18提问于2019-01-11得票数 2

回答已采纳

1回答

在beam.io.writetobigquery中使用模式更新选项

、、

我正在使用apache apache数据流将一堆日志文件加载到BigQuery中。通过向文件添加新列，文件格式可以在一段时间内更改。我看到架构更新选项ALLOW_FILED_ADDITION。下面是我的WriteToBQ步骤： | 'write to bigquery' >> beam.io.WriteToBigQuery('project:datasetId.tableId', ,write_disposition=

浏览 34提问于2020-10-14得票数 0

1回答

在Google App Engine Flex上运行Apache* Beam时，“‘module”对象没有属性“WriteToBigQuery”*

、、、、

这条管道应该将最终的PCollection写入谷歌BigQuery，但我找不到一种方法来安装正确的apache_beam.io依赖项。但我无法在部署时随应用程序提供的lib文件夹上安装此依赖项。尽管我有一个包含apache-beam</em

浏览 6提问于2018-02-09得票数 3

1回答

在TableRow Apache梁中访问BigQuery列

、、

我在试着2.每15分钟使用文件加载将事件从Cloud /Sub加载到BigQuery，以节省流插入的成本。;import org.apache.beam.sdk.coders.Coder; import org.apache.beam.sdk.io.gcp.bigquery</em

浏览 0提问于2018-04-17得票数 0

回答已采纳

2回答

如何使用python自动更新google大查询中的数据？

、、

我的舞台：使用python (IDE:Spyder)Pull数据连接到MySql数据库，使用python将dataframeConnect转换为Google，使用python将数据写入GoogleBigQuery

浏览 16提问于2021-07-01得票数 0

1回答

Beam.BigQueryIO: numFileShards是干什么用的？

、

当我想将我的未绑定输入从Kafka加载到BigQuery时，我遇到了.withMethod()选项。通过使用Method.FILE_LOAD，我还必须指定触发频率以及非零numFileShards。(BatchLoads.java:212) at org.apache.beam.sdk.io.gcp.

浏览 1提问于2018-09-10得票数 2

回答已采纳

2回答

在Beam管道中以编程方式生成BigQuery模式

、、、

我有一个同构字典的集合，我如何在不知道模式的情况下将它们写到BigQuery？ | 'sample_one' >> beam.combiners.Sample.FixedSizeGlobally(1)) 但是，如何将模式作为参数提供给BigQuerySink，并在beam.io.Write中使用它呢？我知道这是

浏览 8提问于2017-06-30得票数 3

3回答

使用Python SDK的数据流:将PubSub消息转换为BigQuery输出

、、、、

attributes: {}大查询模式：我的目标是简单地读取消息有效负载并插入到bigquery我正在努力理解转换，以及如何将键/值映射到大型查询模式。当前代码：谢谢!

浏览 1提问于2017-10-21得票数 3

1回答

如何修复写入java.lang.RuntimeException的数据流模板作业中的"java.lang.RuntimeException:未能创建作业“？

我试图使用JDBC到BigQuery Dataflow 将数据从Postgres数据库复制到BigQuery。at org.apache.beam.sdk.io.gcp.bigquery.BigQueryHelpers$PendingJob.runJob ( org/apache.beam.sdk.io.gcp.bigquery/BigQueryHelpers.java:200 ) at org.apach

浏览 11提问于2022-11-19得票数 2

回答已采纳

1回答

从写入BigQuery时类型无效

、、、

当我尝试使用Apache编写BigQuery时，我得到了： "github.com/apache/beam/sdks/go/pkg/beam/io/bigqueryio" "github.com/<

浏览 5提问于2021-07-20得票数 1

2回答

无法在数据流中从GCS读取我的配置文本文件(列名)

、、、

我在Bigquery中还有静态表。我希望通过使用列头映射(config文件)将源文件加载到静态表中。之前我尝试了不同的方法(我是维护源文件，其中包含头和数据在同一个文件中，然后尝试从源文件中分割头，然后使用头列映射将这些数据插入Bigquery。.*; import org.apache.beam.sdk.io.TextIO; import org.a

浏览 0提问于2018-06-22得票数 1

2回答

写入BigQuery时处理卡住

、、

我正在使用云数据流将数据从发布/订阅消息导入到BigQuery表中。我使用DynamicDestinations，因为这些消息可以放入不同的表中。$DatasetServiceImpl.insertAll(BigQueryServicesImpl.java:765) at org.apache.beam.sdk.io.gcp.bigquery.BigQueryServicesImpl$DatasetServiceImpl.insertAll(BigQueryServicesImpl.java:8

浏览 4提问于2019-02-16得票数 4

1回答

与字符串列表相比，带有dicts列表的beam.Create()非常慢

、、、、

我正在使用Dataflow处理一个包含大约400万个功能(约2GB )的Shapefile，并将几何图形加载到BigQuery中，因此在管道启动之前，我将shapefile特性提取到一个列表中，并使用beam.Create/Versions/3.7/lib/python3.7/site-packages/apache_beam/typehints/trivial_inference.py", lin

浏览 5提问于2020-12-30得票数 0

2回答

使用数据流和Apache Beam (Python)将数据从发布/订阅流式传输到BigQuery

、、、、

目前，我面临着让我的beam流水线在数据流上运行以将数据从发布/订阅写入BigQuery的问题。我已经查看了各个步骤，所有数据本身似乎都在按预期进行更改。问题来自使用beam.io.gcp.bigquery.WriteToBigQuery的步骤。设置为等于字典本身，这些额外的参数似乎都被忽略了。ParDo函数的进程如下所示： import apache_beam as

浏览 0提问于2020-03-11得票数 1

4回答

用Python从逐行读取巨大的JSON

、、、

我的GCS 上有~300 GCS文件，最终我试图将它导入BigQuery，但是它有一些错误的数据结构(我是mongoexport从MongoDB获得的) 字段名"$date“无效。因此，现在我的方法是从GCS逐行读取源文件，并使用python将每一行处理后的代码上传到BigQuery。

浏览 5提问于2018-10-09得票数 3

回答已采纳

1回答

Apache :根据键将键值、值对写入文件

、

我希望通过在Apache中使用FileIO和writeDynamic() (使用Java)将键、值对写入GCS中的文本文件。到目前为止，我正在读取来自Big的数据，将其转换为键值对，然后尝试使用FileIO和writeDynamic()将每个键的值写入一个文件中。

浏览 2提问于2019-11-06得票数 0

回答已采纳

点击加载更多