腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(2106)
视频
沙龙
1
回答
Airflow Composer删除特定的xcom键
、
我正在通过Airflow并行编排多个
数据流
作业。
流水线
执行中的任务之一是推送唯一的xcom键来存储每个
流水线
的临时值,该临时值用于向
Bigquery
表中插入一个值。我不想删除仍在并行运行的其他
数据流
作业可能生成的其他xcom键。它们是清除特定xcom密钥的方法吗?
浏览 3
提问于2021-09-05
得票数 0
2
回答
如
何用
BigQuery
测试
数据流
流水线
我想
测试
一下我的管道。我的管道从
BigQuery
中提取数据,然后将数据存储到GCS和S3中。虽然这里有一些关于
流水线
测试
的信息,,但它没有包括从
BigQuery
中提取数据的数据模型。有没有好的文档来
测试
我的
流水线
?
浏览 15
提问于2017-01-25
得票数 1
回答已采纳
2
回答
谷歌数据:每天加载多个小表
我想每天从SQL Server加载大约100个小表(最少5条记录,最多10000条记录)到谷歌
BigQuery
。我们已经创建了100个
数据流水线
,每个源表一个
流水线
。当我们启动一条
流水线
时,大约需要7分钟来执行。当然,它会启动DataProc,连接到SQL server,并将数据导入Google
BigQuery
。当我们必须按顺序运行时,需要700分钟吗?当我们尝试在
流水线
中并行运行时,我们受到网络范围的限制,可能是256/3.1。1
流水线
启动3个虚拟机的1个
浏览 42
提问于2020-07-01
得票数 1
1
回答
设置管道google
数据流
的优先级
、
我是谷歌
数据流
的新手。我有两个
数据流
流水线
来执行两个不同的任务。一个是ETL处理并加载到
Bigquery
,另一个是从
Bigquery
读取以聚合报告。我想先运行管道ETL,在它完成后,将运行报告管道,以确保
bigquery
中的数据是最新的更新。 我试着在一条管道上跑,但它不起作用。现在我必须先运行手动ETL,然后再运行报表管道。
浏览 14
提问于2017-08-11
得票数 0
1
回答
数据融合不允许来自
Bigquery
的Struct类型
、
、
我正在尝试创建一个
数据流水线
,以便从STRUCT类型的
bigquery
中读取表,但收到了这个错误: 2021-06-01 19:13:53,818 - WARN [service-http-executornamespaces/system/apps/dataprep/services/service/methods/contexts/interoper_prd/connections/interoper_bq_prd/
bigquery</
浏览 18
提问于2021-06-02
得票数 0
1
回答
是否遇到从
数据流
管道到
BigQuery
的低速流式写入?
、
、
在使用流式插入和Python SDK2.23写入
BigQuery
时,我遇到了意外的性能问题。 在没有写入步骤的情况下,
流水线
在一个工作线程上运行,占用大约20-30%的CPU。添加
BigQuery
步骤,
流水线
可以扩展到6个工作进程,所有工作进程都占用70-90%的CPU。我对
数据流
和波束很陌生,可能这种行为很正常,或者我做错了什么,但在我看来,使用6台机器每秒向
BigQuery
写入250行数据有点重。我想知道如何才能达到每秒100K行的插入配额。beam.io.BigQueryDispo
浏览 0
提问于2020-09-09
得票数 4
1
回答
从发布/订阅流到
BigQuery
、
、
、
、
我正在尝试使用python
数据流
将一些数据从google PubSub传输到
BigQuery
中。出于
测试
目的,我已经将以下代码修改为流管道,方法是设置因此,我将record_ids管道更改为从发布原因:(f215df7c8fcdbb00):未知流接收器:
bigquery
我认为这与
流水线
现在是流类型有关,有人能告诉我如何在
流水线
中写
bigQuery
浏览 1
提问于2017-09-07
得票数 5
1
回答
计算总管道延迟(云函数->发布/订阅->
数据流
-> BQ)
、
、
、
、
我目前在GCP中有一个管道,它使用云函数摄取数据,将其存入PubSub,在
数据流
中进行处理,最后将其插入到
BigQuery
中。我正在尝试计算平均消息从云函数摄取到
BigQuery
需要多长时间(包括插入时间)。哪些可用指标可以帮助我计算整体
流水线
延迟?
浏览 2
提问于2019-11-21
得票数 0
2
回答
GCP中的
流水线
、
、
、
我们使用GCP服务(
如
composer、
数据流
或云功能等)结合ETL将这些
数据流水线
化。到居住在同一地区(例如欧洲-伦敦西部)的
BigQuery
表。
浏览 2
提问于2019-10-30
得票数 0
回答已采纳
1
回答
有没有可能在谷歌
数据流
中同时输入发布/订阅和
BigQuery
?
、
、
、
在我的项目中,我希望使用Google Dataflow中的
流水线
来处理发布/订阅消息。在清理输入数据时,我也希望有一个来自
BigQuery
的侧输入。但是
BigQuery
与
流水线
不兼容(参见下面的链接): https://cloud.google.com/dataflow/docs/resources/faq#what_are_the_current_limitations_of_streaming_mode但我只是希望使用
BigQuery</em
浏览 29
提问于2019-01-10
得票数 2
1
回答
如何在
数据流
管道中实现PubSubIO中的流量控制设置
、
、
、
、
在我们的应用程序中,我们在
数据流
管道中使用PubsubIO从PubSub读取数据。下面是代码。options.getInputSubscription1())) ParDo.of(new ReadRawdataFromBiqueryTable())); 但是,当我们在此管道中附加
BigQuery
浏览 12
提问于2020-03-25
得票数 1
2
回答
如何实现动态BigQueryIO输入
、
、
我正在使用谷歌
数据流
上的阿帕奇光束。 我的
流水线
从
BigQuery
读取数据,但它依赖于执行参数。我应该能够用一个点(经度,纬度)和几个点来运行管道。我尝试在每个点上应用
BigQuery
read,并将结果合并到一个PCollection中,但我不知道如何将点传递到管道并动态构建它。
浏览 16
提问于2019-01-27
得票数 0
回答已采纳
1
回答
嘲弄BigQueryIO
、
我们有一些
数据流
作业,它最终将结果写入BigQueryIO。我们怎么能嘲笑BigQueryIO呢?我们使用下面的代码将结果写入
BigQuery
。.apply(BigQueryIO.Write .to(&quo
浏览 2
提问于2015-07-09
得票数 1
回答已采纳
1
回答
GCP
数据流
中的流数据处理支持哪些数据源?
、
、
、
在阅读了很多关于
数据流
的内容后,我发现只有PubSub和
bigquery
是GCP
数据流
中支持流数据处理的数据源。 还支持哪些其他数据源?我是否可以使用
数据流
完成所有的流任务,这些任务可以使用其他ETL工具,
如
Spark或Kafka?
浏览 26
提问于2020-07-01
得票数 0
1
回答
在Apache Beam中使用无界PCollections从MongoDB changeStream读取数据
、
、
、
、
我正在为我的公司设计一种新的方法来从多个MongoDB数据库中流式传输数据,执行一些任意的初始转换,并将它们汇聚到
BigQuery
中。我们使用
数据流
基本上做到了这一点: MongoDB -> Dataflow (Apache Beam, Python) ->
BigQuery
我们基本上只需要等待collection.watch()调用作为输入有没有可能从changeStream中读取数据,并让
流水线
一直等到任务终止,而不是从记录中删除?
浏览 20
提问于2020-01-02
得票数 3
2
回答
使用多字符分隔符将存储在谷歌云存储上的数据加载到
BigQuery
、
、
、
我想将带有多个字符分隔符的数据加载到
BigQuery
。BQ load命令当前不支持多个字符分隔符。它只支持单个字符分隔符,
如
'|‘、'$’、'~‘等 我知道有一种
数据流
方法,它将从这些文件中读取数据并写入
BigQuery
。这种方法在处理
数据流
时速度很慢,因为我当前必须启动一个不同的
数据流
作业,以便使用for循环将每个文件写入单独的表。这种方法已经运行了超过24小时,但仍然没有完成。那么,是否有其他方法可以将这些具有多个字符分隔符的多个文件加载到
Big
浏览 22
提问于2016-08-11
得票数 3
回答已采纳
3
回答
谷歌
数据流
每项作业是否有BT写原子?
所以我的问题是,如果我有一个
数据流
作业,它会写到
BigQuery
或BigTable,但是作业失败了。
数据流
是否能够在启动前回滚到状态,或者我的表中可能只是部分数据?但是,我已经尝试过通过
数据流
将数据转储到BQ中,并且在作业声称成功之前,输出表似乎不会公开给用户。
浏览 6
提问于2016-08-05
得票数 1
回答已采纳
3
回答
触发DataPrep
数据流
作业的云函数
、
我有一个很小的
流水线
,我正在尝试执行:我已经通过Dataprep创建了一个
数据流
作业,因为它有很好的UI,可以在写入GCS表之前执行所有转换(写入
BigQuery
很好),并且云函数会在文件上传到
BigQuery
存储桶时触发。然而,云函数不会触发
数据流
作业(我在Dataprep中编写的)。 请看一下我的云函数的下面的示例代码,如果我能得到任何关于为什么
浏览 64
提问于2018-05-08
得票数 1
回答已采纳
1
回答
Apache与“正常”并行进程
、
、
、
、
(它使用
bigquery
和存储API)。问题是,它运行在32vCPU/120 it计算引擎实例(VM)上,并使用python的多处理库进行简单的并行处理。我们目前正在考虑切换到
数据流
,我想知道的是:如果我使用Beam的DirectRunner实现相同的
流水线
,我应该如何期望性能与当前实现的性能进行比较?它会更快还是更慢?为什么?
浏览 2
提问于2019-11-12
得票数 1
1
回答
使用,如何在GCE计算实例上使用适当的凭据运行?
、
我已经编写了一个
数据流
应用程序,并且可以在本地和GCE实例上使用我的个人凭据来运行它。
浏览 5
提问于2015-07-07
得票数 1
回答已采纳
点击加载更多
相关
资讯
使用Kafka,如何成功迁移SQL数据库中超过20亿条记录?
从Lambda到无Lambda,领英吸取到的教训
弃用 Lambda,Twitter 启用 Kafka 和数据流新架构
使用8大 DevOps 工具落地持续交付的最佳实践
DevOps 十讲闪亮登场!JFrog 联合 ITIL先锋论坛推出 DevOps学习系列十讲!
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券