腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(5452)
视频
沙龙
1
回答
在
python
中
的
管道
运行
期间
访问
Apache
光束
度
量值
?
、
我正在使用
Apache
光束
Python
SDK
的
直接
运行
器来执行一个简单
的
流水线,类似于单词计数示例。因为我正在处理一个大文件,所以我希望
在
执行过程
中
显示指标。我知道如何报告指标,但我找不到在
运行
期间
访问
指标的任何方法。我
在
PipelineResult中找到了metrics()函数,但似乎只从Pipeline.run()函数获得了一个PipelineResult对象,这是一个阻塞调
浏览 17
提问于2021-08-16
得票数 2
回答已采纳
1
回答
如何使用
Python
通过ApacheBeam连接到Oracle数据库?
、
、
import
apache
_beam as beam ) )ERROR:
apache
_beam.utils.subprocess_s
浏览 1
提问于2021-07-14
得票数 0
1
回答
如何在
Apache
Beam
中
实现类似于Spark累加器
的
变量
我目前使用
的
是Spark
中
的
Apache
Beam2.29.0。我
的
管道
使用来自Kafka
的
数据,我有一个自定义
的
KafkaConsumer,它是Beam通过调用ConsumerFactoryFn创建
的
。在
运行
期间
,我需要在自定义Kafka消费者之间共享一段持久数据。
在
Spark
中
,这将非常简单,我将创建一个累加器变量,所有的执行器以及驱动程序都可以
访问<
浏览 16
提问于2021-09-10
得票数 0
1
回答
Dataflow
中
的
自定义
Apache
Beam
Python
版本
、
、
我想知道是否有可能有一个自定义
的
阿帕奇
光束
Python
版本
运行
在谷歌数据流。
在
公共存储库
中
不可用
的
版本(
在
撰写本文时: 0.6.0和2.0.0)。例如,来自
Apache
Beam官方存储库
的
HEAD版本,或与此相关
的
特定标签。 我知道打包定制包(例如私有的本地包)
的
可能性,正如官方中所描述
的
那样。这里有关于如何为其他一些脚本做这件事
的
答案是。这上
浏览 16
提问于2017-07-27
得票数 4
回答已采纳
1
回答
在
apache
apache
中使用KafkaIO时出错
、
、
、
、
我正在使用阿帕奇
光束
DirectRunner从卡夫卡主题加载数据。我
的
代码如下: (pipeline| ReadFromKafka(consumer_config=conf,topics=['topic1'])我使用下面的命令来
运行
这段代码:
python
3t
浏览 1
提问于2020-07-08
得票数 1
2
回答
是否可以
在
不具有本地所有依赖项
的
情况下
运行
/序列化数据流作业?
、
、
我已经使用
Apache
光束
为Google Cloud Dataflow创建了一个
管道
,但我不能在本地拥有
Python
依赖项。但是,远程安装这些依赖项是没有问题
的
。
在
我
的
本地(开发)环境
中
,有没有可能在不执行
Python
代码
的
情况下
运行
作业或创建模板?
浏览 1
提问于2019-09-27
得票数 0
1
回答
在从CircleCI启动
的
数据流/
Apache
-beam作业上找不到库
、
、
、
、
我
在
使用从CircleCI启动
的
GCP Dataflow runner
运行
python
Apache
光束
管道
时遇到了严重
的
问题。基本上,我
运行
的
是在数据流
中
运行
并使用google-api-
python
-client-1.12.3
的
python
Apache
光束
管道
。如果我<e
浏览 10
提问于2020-10-13
得票数 2
回答已采纳
1
回答
Google Cloud Storage Concurrency with
Python
/
Apache
Beam?
、
、
我正在使用
Python
中
的
Apache
光束
构建一个
管道
,并且我需要避免
在
Google Cloud Storage
中
写入文件时出现竞争条件。下面的链接介绍了如何通过gsutil
在
谷歌云存储中使用并发控制。 有没有人知道有没有办法用
Python
或
Apache
Beam
Python
SDK来完成同样
的
事情?
浏览 2
提问于2018-08-31
得票数 0
2
回答
光束
+闪烁:使用SDFBoundedSourceReader时没有并行性
、
、
背景:我正在使用TFX
管道
,并使用Flink作为
光束
的
运行
器(使用flink-on-K8s-operator
的
flink会话集群)。Flink集群有2个任务管理器,每个任务管理器有16个核心,并行
度
设置为32。TFX组件调用beam.io.ReadFromTFRecord来加载数据,传入一个glob文件模式。我有一个跨160个文件
的
TFRecords数据集。当我尝试
运行
该组件时,对所有160个文件
的
处理
在
Flink<
浏览 18
提问于2021-09-20
得票数 0
回答已采纳
1
回答
如何在特定doFun执行结束时
在
Apache
梁
中
手动提交Kafka偏移量
、
、
我创建了一个简单
的
Apache
光束
流
管道
,它从Kafka读取数据,进行一些处理,并通过调用一些外部服务
的
API来持久化结果。我希望确保
在
管道
重启或失败
期间
不会丢失数据,因此我希望
在
特定doFun执行结束时成功调用接口后,手动将记录偏移量提交给Kafka。
在
我之前
的
Kafka经验
中
,我知道通过使用Kafka Consumer
的
below接口,我可以手动将记录偏移量提
浏览 10
提问于2021-09-21
得票数 1
回答已采纳
1
回答
带有
Apache
横梁
的
弹簧
、
、
我想使用Spring与
Apache
光束
,这将
运行
在谷歌云数据流
运行
。数据流作业应该能够
在
执行
管道
步骤时使用Spring Runtime应用程序上下文。我想在我
的
Apache
光束
管道
中使用Spring特性来实现DI和其他东西。
在
google上浏览了几个小时后,我找不到任何关于
在
Apache
Beam中集成Spring
的
帖子或文档。所以,如果有人尝试
浏览 9
提问于2019-10-05
得票数 2
1
回答
使用PubSubIO读取数据流
的
速度非常慢
、
、
、
、
我
在
使用从PubSub读取和写入BigQuery
的
数据流
管道
时遇到了一些问题。它在更新之前
运行
正常,现在即使我将我
的
流水线降级到以前
的
版
浏览 3
提问于2017-08-19
得票数 0
2
回答
访问
Google Cloud Dataflow
中
的
模板化
运行
时参数-
Python
、
、
、
、
然后,当我尝试使用my_options.argname.get()将这些参数传递到
管道
中
时,我得到一个错误,告诉我该项不是从
运行
时上下文中调用
的
。我不明白这个。
在
显示
的
代码片段
中
,除了使用my_options.outputBQTable.get()
的
outputBQTable名称之外,我已经对所有内容进行了硬编码。此操作失败,并显示以下消息。:'dataflow_csv_reader_testing.names').get()未从<
浏览 3
提问于2018-07-11
得票数 2
1
回答
由于数据流作业工作进程
在
启动时被卡住,TFX
管道
停止工作
、
、
、
我有一个
在
GCP AI Platform Pipeline (托管Kubeflow)
中
运行
的
TFX Pipeline。数据流作业启动,但不执行任何操作-它在启动/准备工作进程
期间
被卡住。 worker日志显示正在使用pip安装
python
依赖项。我
在
worker VM启动时连接到它,而不是显示pip不断
运行
并消耗100%
的
CPU -它没有完成,我等待了一个多小时才停止作业。TFX版本: 0.26.3 (与0.26.4并列,结
浏览 15
提问于2021-05-19
得票数 0
1
回答
从Flink仪表板初始化JobManager时作业失败
、
、
我正试图
在
Flink Runner上
运行
Python
光束
作业。我已经
在
我
的
本地机器上启动了一个minikube集群,并转发了8081端口来查看localhost:8081上
的
Flink Dashboard。部署
的
flink集群上
的
所有东西似乎都在
运行
,但当我尝试执行基本
管道
(
在
DirectRunner上
运行
良好)时,我
在
Flink complet
浏览 530
提问于2021-02-04
得票数 0
1
回答
Apache
beam Pypi包永久下载
、
、
我正在用requirements.txt文件
中
定义
的
3个Pypi包在数据流上
运行
阿帕奇
光束
管道
。当我使用"--requirements_file=requirements.txt“选项
运行
我
的
管道
时,它提交了下面的命令来下载Pypi包。
python
-m pip download --dest /tmp/requirements-cache -r requirements.txt --exists-act
浏览 18
提问于2021-07-04
得票数 0
1
回答
TensorFlow扩展:澄清
光束
、气流和库贝流
的
使用
、
、
、
、
我希望有人能澄清TensorFlow与它
的
依赖关系(Beam、AirFlow、Flink等)梁
的
例子?没有“梁”
的
例子,也很少描述它
的
用途。 假设即使没有安装气流,taxi_pipeline_simple.py也会
运行
,这是正确
的
浏览 0
提问于2019-05-17
得票数 6
回答已采纳
2
回答
我可以
在
原生
python
中使用google DataFlow吗?
、
、
、
我正试图
在
google
中
构建
python
管道
,而google云数据流似乎是一个不错
的
选择。当我研究文档和开发人员指南时,我发现
apache
梁总是附在数据流上,因为它是基于它
的
。我可能会在
apache
beam中找到处理我
的
数据文件
的
问题。 如果我想用DataFlow
在
原生
python
中
构建我
的
ETL脚本,这可能
浏览 4
提问于2021-08-23
得票数 1
1
回答
我们可以
在
相同
的
数据上同时
运行
多个google云
管道
吗?
、
、
、
假设我有一个从存储文件加载数据
的
管道
,并将其加载到一个大查询表
中
。在这个
管道
完成之前,我可以
运行
另一个
管道
,
在
相同
的
文件和表上执行相同
的
操作吗? 我
的
假设是它应该失败。另外,我们如何能够触发第二个
管道
呢?(我
在
Eclipse
中
运行
Apache
光束
代码;当一个类正在
运行
时,它不允许第二次执行)我
浏览 1
提问于2018-05-02
得票数 1
1
回答
在
Apache
Beam
Python
SDK中发布/订阅到数据存储批处理数据流作业可能吗?
、
、
、
我想启动一个批处理数据流作业来读取这些消息,执行一些转换,将结果写入数据存储,然后停止
运行
。当一批新
的
消息发出时,我想开始一项新
的
工作。我已经阅读了
Apache
Beam
Python
SDK文档和许多问题,但对一些事情仍然不确定。 是否可以将发布/订阅IO作为非流作业
的
一部分进行读取?我是否可以假设默认
的
全局窗口和触发器将正确地告诉作业何时停止从发布/订阅读取(当不再写入批量消息时)?或者我需要添加某种类型
的
触发器/窗口
浏览 2
提问于2019-02-21
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一文读懂Apache Spark
Python+Apache Kylin 让数据分析更加简单!
什么是 Apache Spark?大数据分析平台详解
maven基础入门
Apache2 配置 CGI 支持 Python3
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券