腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(874)
视频
沙龙
1
回答
Apache
Beam
python
Bigquery
将
流式
插入
更
改为
批量
插入
?
、
、
、
我正在运行一个
apache
beam
数据流作业,它从存储桶中读取数据,执行一些转换并写入
bigquery
。但是记录被
插入
到流缓冲器中。validated_data = (p1 | 'Write to
BigQuery
t
浏览 17
提问于2019-01-12
得票数 3
1
回答
数据流中的动态
bigquery
表名
、
基本上,我们希望根据特定列(而不是日期)的值,
将
一个大的(数十亿行)
bigquery
表拆分成大量(可以是100k左右)较小的表。我不知道如何在
bigquery
中高效地完成这项工作,所以我在考虑使用数据流。然后我们需要将PCollection写回
bigquery
表,表名可以是key_table。所以操作应该是:p|
beam
.io.Read(
beam
.io.BigQuerySource()) |
beam
.map(lambda record:(record‘’split
浏览 9
提问于2017-07-13
得票数 0
1
回答
用数据流
批量
插入
Bigquery
、
、
、
、
我正在使用
apache
管道,我想用
python
批量
插入
bigquery
。我的数据来自Pub/Sub,它是无限的。作为我研究的结果,带有触发器的GlobalWindows应该可以解决我的问题。(getAttributes)) p3 = (p2 | 'Filter ' >>
beam
.Filter(lambda msg: (("xx" in msg) and (msg["xx"].lower(create_di
浏览 0
提问于2019-01-04
得票数 4
1
回答
错误从发布/订阅流到大型查询
python
、
、
、
、
我很难创建一个
将
发布/子源连接到大型查询接收器的dataflowRunner作业,方法是
插入
以下两个:
apache
_
beam
.io.gcp.
bigquery
.BigQuerySink在github上的
beam
/sdks/
python
/
apache
_
beam
/example
浏览 0
提问于2017-06-29
得票数 0
回答已采纳
2
回答
Google
BigQuery
:通过API
批量
加载
首先,有没有可能通过它的API
批量
加载到Google
BigQuery
中?如果是,那要多少钱呢?我
将
每天
插入
一百万行。我将使用
Python
在API中使用'patch‘或'update’。
浏览 0
提问于2018-08-15
得票数 1
3
回答
显示RuntimeException的
Apache
Beam
-
Bigquery
流
插入
: ManagedChannel分配站点
、
、
我在Google Dataflow中运行了一个
Apache
beam
流水线。它从Kafka中读取数据并将其
流式
插入
到
Bigquery
。但在
bigquery
流
插入
步骤中,它抛出了大量警告-at io.grpc.internal.ManagedChannelOrphanWrapper(BigQueryServicesImpl.java:1255)
浏览 7
提问于2021-06-01
得票数 5
1
回答
在数据流中使用
BigQuery
beam
api向Streaming_insert
插入
记录时请求大小错误
、
、
、
、
我创建了一个google流作业,从PubSub读取并
插入
到
BigQuery
中。我使用JSON
将
STREAMING_INSERT数据
插入
到BiqQuery表中。我正面临
插入
问题,说明请求的大小超过了10 Mb的允许限制。数据流错误如下所示。根据我的理解,每个记录的大小是1-2Mb,根据我的理解,数据流作业
将
流数据
插入
到微批处理中,这导致了这一错误。org.
apache
.
beam
.sdk.io.gcp.
bigquery
.
浏览 6
提问于2022-10-13
得票数 0
回答已采纳
1
回答
将
查询结果保存到
BigQuery
中的表的成本?
我很好奇有一个
python
(QueryJobConfig)可以设置目标表来保存查询结果,所以为了节省这种开销,在GCP中需要花费多少?为了明确起见,保存查询结果可能会被视为
插入
,因此,如果我经常使用此方法更新表,那么执行流
插入
将
花费很大的成本。
浏览 3
提问于2020-04-20
得票数 0
回答已采纳
2
回答
使用
Python
的Google数据流
、
尝试实现一个
更
简单的示例,并在
将
数据
插入
到
BigQuery
时出错from __future__ import absolute_importimport loggingimport refrom
apache
_
beam
.options.pipeline_options import PipelineOptions) |
浏览 1
提问于2018-10-31
得票数 0
回答已采纳
1
回答
Google流
插入
到
BigQuery
命中率限制
、
、
我试图使用数据流流处理
将
记录
插入
到
BigQuery
中。存储桶中更改的文件从PubSub读取,然后读取、转换并
插入
到
BigQuery
中。但是,我不明白为什么我会看到关于这些配额的消息,因为
BigQuery
的流
插入
配额是100万/秒。lib/
python
3.6/site-packages/
apache
_
beam
/io/gcp/
bigquery<
浏览 29
提问于2020-02-25
得票数 3
1
回答
数据流:从Pubsub RuntimeException导出到
Bigquery
、
、
、
我正在使用pubsub中的“”特性,通过数据流
将
一个常规的JSON传递给
bigquery
。 但是,它工作了一秒钟,这意味着一些条目可以正确地传递到
bigquery
。_comments”、“消息”:“没有这样的字段”、“原因”:“无效”},“索引”:0}] org.
apache
.
beam
.sdk.io.gcp.
bigquery
.StreamingWriteFn.flushRowsorg.
apache
.
beam
.sdk.io.gcp.
bigquer
浏览 1
提问于2018-03-27
得票数 1
回答已采纳
2
回答
对于数据流,BigqueryIO.write()和
bigquery
.insertAll()方法哪个更好
、
、
、
我正在开发java代码,以便从GCS读取记录并
插入
到BQ表中,从成本和性能的角度来看,哪个BigqueryIO.write()或
bigquery
.insertAll()方法更好。
浏览 0
提问于2019-03-05
得票数 1
1
回答
在数据流管道上捕获
BigQuery
HttpBadRequestError
、
、
_flush_all_batches() File "/usr/local/lib/
python
3.8/site-packag
浏览 20
提问于2021-02-23
得票数 0
回答已采纳
1
回答
当从其他谷歌云服务
流式
传输数据时,有可能修复到
BigQuery
的失败
插入
吗?
BigQuery
提供insertIds并执行一些重复数据消除,以帮助解决通过API
插入
数据时的故障情况。根据文档,,所以如果
插入
失败,可以通过API重试
插入
,而不用担心可能的(
插入
的)数据重复。问题是,在谷歌云上,有大量承诺
将
数据
插入
BigQuery
的服务。例如,对于从许多来源获取数据到
BigQuery
的推荐堆栈,DataFlow /
Apache
Beam
是其中的一部分。那么,当使用任意
浏览 1
提问于2018-06-12
得票数 0
1
回答
是否遇到从数据流管道到
BigQuery
的低速
流式
写入?
、
、
在使用
流式
插入
和
Python
SDK2.23写入
BigQuery
时,我遇到了意外的性能问题。 在没有写入步骤的情况下,流水线在一个工作线程上运行,占用大约20-30%的CPU。添加
BigQuery
步骤,流水线可以扩展到6个工作进程,所有工作进程都占用70-90%的CPU。我对数据流和波束很陌生,可能这种行为很正常,或者我做错了什么,但在我看来,使用6台机器每秒向
BigQuery
写入250行数据有点重。我想知道如何才能达到每秒100K行的
插入
配额。
BigQuery
浏览 0
提问于2020-09-09
得票数 4
1
回答
使用谷歌DataFlow直接
将
数据
流式
传输到云SQL的简单查询
、
、
所以我正在做一个小项目,使用Google Dataflow和
apache
beam
建立一个流管道。我看了一些教程,能够建立一个管道并将其
流式
传输到
BigQuery
中,但我希望将其
流式
传输到一个完整的关系数据库(即: Cloud SQL)中。我在这里有点困惑,因为当我查找如何做到这一点的信息时,所有这些都是指
批量
写入云SQL,而不是完全流传输。 我的简单问题是,我可以直接
将
数据
流式
传输到Cloud SQL中,还是必须通过批处理发送。
浏览 4
提问于2018-02-02
得票数 2
回答已采纳
1
回答
BigQuery
python
客户端使用流API删除一些行
、
、
我使用
流式
应用编程接口(
BigQuery
Python
客户端的insert_row函数)
将
大约一百万个数据项
插入
到
BigQuery
中,但是有一些数据丢失,大约10,000个数据项在
插入
时丢失。有没有可能
BigQuery
会丢弃一些数据?因为没有任何
插入
错误(或任何错误)。
浏览 63
提问于2018-12-03
得票数 0
2
回答
从HTTP请求API拉取数据到Google Cloud
、
、
、
、
我有一个应用程序,从API发送数据给我。数据是半结构化的(json数据) 我想把这个数据发送到Google Big Query,以便储存所有的信息。 但是,我不知道如何才能正确地做到这一点。 到目前为止,我已经在自己的服务器上使用Node通过POST请求获取数据。 你能帮帮我吗?特纳克。
浏览 17
提问于2019-10-15
得票数 0
1
回答
如何在Mongodb中使用Where条件到
bigquery
数据流模板?
、
、
、
我已经使用
apache
beam
(Dataflow Runner)编写了mongodb到
bigquery
数据管道的
python
代码。######################################### from
apache
_
beam
.options.pipeline_optionsimport PipelineOptions
浏览 11
提问于2021-01-15
得票数 1
回答已采纳
1
回答
从Google云存储到Big Query的
流式
数据流
、
、
、
我正在尝试使用DataFlow (Java)
将
数据从云存储
插入
到Big Query。我可以
批量
上传数据;但是,我想设置
流式
上传。因此,当新对象添加到我的存储桶中时,它们将被推送到
BigQuery
。我已经
将
PipelineOptions设置为
流式
传输,它在GCP Console UI中显示数据流管道是
流式
传输类型。存储桶中最初的一组文件/对象被推送到
BigQuery
。但是,当我向存储桶中添加新对象时,这些对象不会被推送到<em
浏览 47
提问于2018-06-03
得票数 3
回答已采纳
点击加载更多
相关
资讯
100%让你在10分钟内学会如何用python将数据批量地插入到数据库
【行业资讯】Apache Arrow 1.0.0 发布,内存数据交换格式
Flink:动态表上的连续查询
Kafka落选!InfoWorld最佳开源数据平台奖公布
KSQL:Apache Kafka的开源Streaming SQL引擎
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券