腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
在
Beam
管道
中
以
编程
方式
生成
BigQuery
模式
、
、
、
我有一个同构字典的集合,我如何在不知道
模式
的情况下将它们写到
BigQuery
? | 'sample_one' >>
beam
.combiners.Sample.FixedSizeGlobally(1))
浏览 8
提问于2017-06-30
得票数 3
1
回答
使用
管道
数据查询
BigQuery
apache_
beam
、
、
、
、
我希望使用运行在
管道
中
的数据
生成
一个查询并在
BigQuery
上执行它。= ''' email `project_id.dataset_id.table_id` email = {runtime_email}我希望
以
这样一种
方式
格式化这个模板,即runtime_email起源于
管道
数据(元素)。例如,
管道
从PubSub读取变量runtim
浏览 7
提问于2019-10-06
得票数 0
回答已采纳
2
回答
ApacheBeamJava2.26.0: BigQueryIO‘请求
中
没有行’
、
、
自从
Beam
2.26.0更新之后,我们
在
Java流数据
管道
中
遇到了错误。我们已经调查这个问题很长一段时间了,但无法找出根本原因。当降级到2.25.0时,
管道
会像预期的那样工作。我们的
管道
负责吞食,即从Pub/Sub消耗并摄入到
BigQuery
中
。具体来说,我们使用PubSubIO源和BigQueryIO接收器(流
模式
)。我特别担心以下的改变:
BigQuery
的DATETIME类型现在映射为
B
浏览 3
提问于2021-03-09
得票数 2
回答已采纳
1
回答
在
BigQuery
客户端库和梁IO之间共享
模式
定义
、
、
、
背景:我们使用
Beam
2.0
中
的cloud data flow runner将数据ETL到
BigQuery
中
的仓库。我们想要使用
BigQuery
客户端库(Beta)来创建数据仓库的
模式
,然后再使用
beam
管道
用数据填充它们。(原因:完全控制表定义,例如分区,轻松创建DW实例,即数据集,ETL逻辑与DW设计的分离,以及代码模块化) 问题:
Beam
中
的BigQury IO使用com.google.api.service
浏览 0
提问于2017-06-09
得票数 3
3
回答
在数据流
管道
中
写入
BigQuery
时捕获失败
、
、
、
我有一个从PubSub主题读取事件数据的数据流
管道
。当收到消息时,我执行一个转换步骤,将事件数据与我想要的
BigQuery
模式
相匹配。但是,如果创建的输入不符合
模式
,则会遇到问题。目前,我正在进行大量手动检查,
以
确保输入是否符合
模式
,但是,
在
没有考虑到的情况下,我会积累RuntimeErrors。
beam
.io.gcp.
bigquery
.WriteToBigQuery(
浏览 4
提问于2018-05-08
得票数 4
1
回答
如何在数据流
管道
中
实现PubSubIO
中
的流量控制设置
、
、
、
、
在
我们的应用程序
中
,我们在数据流
管道
中使用PubsubIO从PubSub读取数据。下面是代码。table", ParDo.of(new ReadRawdataFromBiqueryTable())); 但是,当我们在此
管道
中
附加
BigQuery
读取时,由于
BigQuery
读取速度较慢,因为我们
在
ParDo
中
执行此操作,似乎
在
PubSub订阅服务器
中</e
浏览 12
提问于2020-03-25
得票数 1
1
回答
使用
BigQuery
将不同方案的多个文件加载到DataFlow
中
、
、
我有一组带有JSON格式数据的不同
模式
的.txt文件,所有这些数据都要加载到一个通用的
bigquery
表
中
。文件格式很简单,一组文件将有4列,有些列有5列,有些文件有相同的5列,但顺序不同。
在
GCS
中
,每种类型的文件都位于单独的文件夹
中
,每个文件夹
中
的文件是一致的,
在
GCS桶子文件夹
中
,所有文件都是相同类型、相同数量和列顺序的。我能够单独地将这些文件加载到相应的BQ表
中
,但我需要将它们加载到单个表
中
浏览 2
提问于2020-10-01
得票数 0
回答已采纳
2
回答
如何使用
BigQuery
处理数据流
管道
中
的插入错误?
、
、
、
、
我正在尝试用Dataflow创建一个流
管道
,它从PubSub主题中读取消息,最终将它们写入
BigQuery
表
中
。我不想使用任何数据流模板。目前,我只想在从Google实例执行的Python3脚本
中
创建一个
管道
,
以
执行来自Pubsub的每条消息的加载和转换过程(解析其中包含的记录并添加一个新字段),最终将结果写入
BigQuery
表。那么记录的结构(字典
中
的Python)和字段的数据类型就是
BigQuery
表所期望的。我想要处理的问题是:
浏览 0
提问于2019-11-14
得票数 3
回答已采纳
1
回答
通过依赖
管道
处理数据流/Apache梁
中
的废品
、
、
、
、
我有一个从
BigQuery
获取数据并将其写入GCS的
管道
,但是,如果我发现任何拒绝,我想将它们正确地放到
Bigquery
表
中
。我正在将拒绝收集到全局列表变量
中
,然后将列表加载到
BigQuery
表
中
。当我
以
正确的顺序运行
管道
时,当我
在
本地运行它时,这个过程可以很好地工作。当我使用dataflowrunner运行它时,它并不保证顺序(我希望pipeline1
在
pipeline2之前运行。
在</e
浏览 5
提问于2020-09-19
得票数 1
回答已采纳
1
回答
监控WriteToBigQuery
、
、
、
在
我的
管道
中
,我使用WriteToBigQuery,如下所示: 'thijs:thijsset.thijstable',然后我得到:AttributeError: 'dict' object has no attribute 'pipeline' 我一定读过
浏览 0
提问于2019-11-29
得票数 4
回答已采纳
1
回答
在
Apache
管道
中
运行下一步之前未传播
BigQuery
模式
更改
、
、
、
我正在使用apache
在
一个
管道
中
实现三个步骤。如果有来自mongodb数据的新列,从mongodb
中
读取数据,更新
bigquery
中
的
模式
,并将该数据的新
模式
构建为
bigquery
我是阿帕奇·梁的新手。你能帮个忙吗?谢谢。我的
浏览 4
提问于2021-11-18
得票数 1
2
回答
使用数据流将CoGroupByKey接收器左连接到
BigQuery
、
、
、
、
但是,当我将它汇到
BigQuery
:RuntimeError:
BigQuery
作业失败时会出现错误。错误结果:<ErrorProto:消息:“读取数据时出错,错误消息: JSON遇到太多错误,放弃。ededcfb43cda4d16934011481e2fd774/project_name.dataset.expeditions/9fe30f70-8473-44bc-86d5-20dfdf59f502‘原因:“运行时无效”写入
BigQuery
([known_args.input]) | '
浏览 11
提问于2022-09-08
得票数 1
2
回答
是否可以
在
不同的输出汇上编写单个Pcollection而不使用侧输入?
、
、
、
我有一个用于编写
管道
数据的特定用例。我想做一个Pub/Sub订阅,并且希望从这个单一源
中
读取这些订阅,并在多个接收器上编写Pcollection,而不对其进行另一个Pub/Sub订阅。我一直想建立一个
管道
,使我
在
一个数据流中有多个
管道
并行工作,并编写相同的
管道
数据,首先是
在
中
,其次是
在
Bigquery
中
,只使用一个订阅。相同的代码或引用将对我工作的方向带来帮助和启示。
浏览 10
提问于2022-09-29
得票数 2
回答已采纳
2
回答
来自数据流的
BigQuery
流
以
静默
方式
失败
、
、
、
、
我有一个成功的
管道
,使用在计算实例上运行的云dataflow将数据从pub/sub传输到
bigquery
,而不是
在
实际的dataflow运行器上运行。今天我已经更新了BQ表
模式
,似乎没有发生新的插入。我可以查看机器上的日志,一切正常- dataflow没有报告任何错误。 有没有办法从
bigquery
访问流日志
以
检查错误。编辑:总结我的问题是,我是否能够从apache
beam
SDK或
bigquery
获得更详细的日志记录,
以
浏览 22
提问于2019-11-22
得票数 2
回答已采纳
1
回答
BigQuery
代码段
中
的错误
、
我是数据流的新手,并且尝试
在
大查询
中
动态获取表的
模式
。此外,我还需要在BigQueryIO.write.to()中使用动态目标类来动态获取目标表的名称。如果在执行
管道
之前为目标表提供了
模式
,那么它就会起作用。但是为了动态地获取
模式
,我使用了
BigQuery
片段,它接受datasetId和tableId作为输入,并返回给定表的
模式
。当尝试运行带有代码段的
管道
时,它会给出下面提到的错误。import
浏览 2
提问于2018-07-06
得票数 0
1
回答
使用的大型json文件
BigQuery
中
的问题解析和编写
、
、
、
我正在尝试创建一个数据流(批处理),它每小时从读取一个文件,解析它并在
BigQuery
表
中
写入一个条目。文件是一个.json,
在
女巫
中
,每一行都有一个复杂的json。我创建了一个简单的
管道
:| "Read file" >>
beam
.io.ReadFromText(cusom_options.file_name)| &
浏览 4
提问于2020-08-21
得票数 0
回答已采纳
1
回答
阿夫罗GenericRecords,
BigQuery
和
Beam
、
、
、
我必须编写一些一次性的梁/数据流
管道
,从
BigQuery
读取,提取两个字段,然后将它们写到其他地方。与其尝试建立基于
BigQuery
模式
的自动
生成
的Avro代码,我计划只使用索引到GenericRecord
中
,然后将我关心的字段转换为它们的类型。不幸的是,我找不到任何关于
BigQuery
模式
类型映射到哪种类型的文档。是否有关于如何在
Beam
中
映射到Java类型的文档?有没有人知道完整的映射/是否有
浏览 1
提问于2018-07-21
得票数 0
回答已采纳
1
回答
从Dataflow (Python)将嵌套
模式
写入
BigQuery
、
、
、
、
我有一份数据流程工作要写给
BigQuery
。它适用于非嵌套
模式
,但是对于嵌套
模式
失败。这是我的数据流
管道
: p =
beam
.Pipeline(options=pipeline_options) second = (first
浏览 0
提问于2018-02-12
得票数 7
回答已采纳
2
回答
ReadFromPubSub->CloudStorage->
BigQuery
:订阅的大小永远不会减少,似乎只有0.002的订阅到达了
BigQuery
、
、
、
管道
使用ReadFromPubSub源读取指向云存储blobs的链接,读取存储
在
每个文件
中
的事件,然后将它们插入到
BigQuery
中
: with
beam
.Pipeline(options=pipeline_options" >> BigQuerySink(project, deadletter_queue=dlq) ) 问题是,即使从PubSub
以
极好的速度消耗项目,从云存储读取文件的速度也同样快,但它们根本没有
以
接近<
浏览 30
提问于2020-07-04
得票数 1
回答已采纳
2
回答
流缓冲区- Google
BigQuery
、
、
我正在开发一个python程序,
以
像Google模板一样使用。我正在做的是用
BigQuery
从PubSub编写数据: p =
beam
.Pipelines: dict(Trama=s))
beam
.io.Big
浏览 0
提问于2018-11-05
得票数 0
回答已采纳
点击加载更多
相关
资讯
BigQuery如何结合数据与AI实现企业转型
弃用 Lambda,Twitter 启用 Kafka 和数据流新架构
过去一年,Spotify最大一次数据流优化实践
如何使用 TFX 中的 NSL 框架实现图的正则化?
Facebook 发布 TransCoder:实现C ++到Java、Python的代码转换 | 论文解读
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券