腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
数据流
使用
案例
-
并行
文件
处理
、
我目前有数以千计的json
文件
需要
处理
并加载回云存储(可能还有BigQuery)。目前,我们
使用
运行在计算引擎上的Python应用程序来实现这一点。这些
文件
不需要分组或聚合,只需要单独
处理
(添加时间戳、排序条目、为BigQuery添加换行符等)。我只是想要一些简单的方法来
并行
化这个进程,而不是
处理
Python子进程和/或启动更多的机器。这是
数据流
的好用例吗?如果是这样,我是不是更好地将其视为流解决方案,并将所有
文件
发送到Pu
浏览 10
提问于2017-08-08
得票数 0
回答已采纳
2
回答
是
使用
一个数据转换还是
使用
多个数据转换更好?
我们本质上是
使用
SSIS将数据从一个数据库批量加载到另一个数据库。我的同事创建了一个数据转换对象,在其中,他为每个表都有一个转换。我为每个表创建了一个transform对象。我们都是SSIS的新手。
浏览 0
提问于2009-09-06
得票数 1
回答已采纳
1
回答
SSIS控制流:等待所有任务完成
、
三个副本任务中的每一个都由一个
数据流
表示,因此我的控制流中有3个
数据流
任务,所有这些任务都
并行
运行。如何使控制流任务等待3个
并行
任务完成,并将每个任务的集体成功评估为流程1,流程2和流程3是成功,并将集体失败评估为流程1或流2或flow 3失败?
浏览 0
提问于2016-08-12
得票数 2
回答已采纳
2
回答
当前Google的GoLang SDK支持自动标度和
并行
处理
吗?
、
、
、
目前,
使用
Python的Google进行批
处理
。这很好,不过,我有兴趣在不需要
处理
Java的情况下,从我的
数据流
工作中获得更快的速度。
使用
Go SDK,我实现了一个简单的管道,从Google (
使用
textio.Read)读取系列100-500 Go
文件
,并根据结果进行一些聚合和更新CloudSQL。正在读取的
文件
数量可以从几十个到数百个不等。 当我运行管道时,我可以从日志中看到
文件
被串行地读取,而不是
并行
地读取,因
浏览 1
提问于2018-09-19
得票数 0
回答已采纳
1
回答
Azure Data似乎没有
并行
运行
数据流
、
在中,我
使用
一个查找活动获取要下载的
文件
列表,然后将其传递到ForEach,其中
数据流
正在
处理
每个
文件
这是
浏览 0
提问于2021-10-05
得票数 0
回答已采纳
1
回答
多个
数据流
与一个转换中的所有转换
、
您好,我是Azure数据工厂的新手,并不完全熟悉后台运行的后端
处理
。我想知道,与将所有转换都放在一个
数据流
中相比,
并行
运行两个
数据流
是否会对性能产生影响。我正在尝试
使用
not exists转换暂存一些数据。我必须对多个表执行此操作。当我测试
并行
运行两个
数据流
时,两个
数据流
的集群同时出现。但我不确定这是否是将表的加载分布在两个
数据流
之间的最佳方法,还是将所有转换都放在一个
数据流
中的最佳方法
浏览 20
提问于2019-10-18
得票数 0
1
回答
将设备上的视频按字节传输到videoview - Android
、
、
、
我想在解密设备上的加密视频
文件
后播放这些
文件
。我想对
数据流
进行预
处理
,并
使用
videoview
并行
播放它,就像从互联网上流式播放视频一样。有没有办法可以像网络流一样将
处理
后的数据缓存到videoview?
浏览 2
提问于2015-04-29
得票数 0
1
回答
数据流
活动Azure数据工厂中的并发
文件
处理
当
使用
控制流时,可以
使用
GetMetadata活动来检索blob存储帐户中的
文件
列表,然后将该列表传递给每个活动( Sequential标志为false ),以便根据for循环中定义的活动并发(
并行
)
处理
所有
文件
但是,当阅读以下来自微软()的文章中有关
数据流
的内容时,它们指出如下: 当源转换迭代多个
文件
时,映射
数据流
将执行得更好,而不是通过每个活动循环。建议在源转换中
使用
通配符或
文件
列表。例如,如果
浏览 2
提问于2020-05-19
得票数 1
回答已采纳
2
回答
通过批
处理
文件
以不同的参数
并行
执行相同的SSIS包
、
我有一个带有
数据流
任务的SSIS包,其中包含一个OLEDB源和一个OLEDB目标。同样,我有一个批
处理
文件
(.bat
文件
)来
使用
dtexec命令执行SSIS包。在批
处理
文件
中,我设置了oledb目标的连接管理器的ConnectionString属性。我需要
使用
目标ConnectionString的不同值
并行
执行SSIS包,因为我必须同时填充多个目标表。如何更改批
处理
文件
命令,以便可以同时
并行
浏览 1
提问于2013-01-21
得票数 0
回答已采纳
1
回答
如何在Java Maven中生成mysqldump脚本?
、
、
、
我正在
处理
Google Cloud Dataflow中的信息,我们试图
使用
JPA将数据插入或更新到mysql数据库中,但这些查询占用了我们的服务器。所以我们决定改变我们的路径...我想生成一个mysql或.sql
文件
,这样我们就可以写入通过
数据流
处理
的新信息。我想知道是否有实现的方法,或者我必须自己做这件事?让我再解释一下,我们有一个来自XML的输入,我们将信息
处理
成java类,我们有一个数据库的json转储,所以我们可以在不进行太多调用的情况下在线查看我们拥有的信息,考虑到这一点,我们
浏览 3
提问于2016-01-26
得票数 0
2
回答
Integration Services中清理数据的临时存储
我有一个Excel
文件
,需要在集成服务中
处理
三次,一次用于项目,一次用于人员,一次用于时间跟踪数据。我开始考虑将它导入到SQL服务器的临时表中,这当然是可以的,但如果我能跳过这一步就好了。
浏览 3
提问于2009-03-09
得票数 1
回答已采纳
1
回答
从
数据流
管道中的数据存储区读取数据的速度很慢
从
数据流
管道中的数据存储区读取数据时,作业似乎没有分布在我为作业设置的可用工作线程的数量上。Dataflow是对数据存储区数据的读取进行
并行
处理
,还是
使用
单个工作进程进行
并行
处理
?
浏览 1
提问于2017-03-28
得票数 0
1
回答
流程流一个接一个,而不是
并行
的。
Flink初学者-需要一个接一个地
处理
数据流
,而不是
并行
处理
。我需要维护processing.But流的顺序,都是在parallel.Datasets中
处理
的,也没有帮助。
浏览 0
提问于2019-07-30
得票数 0
回答已采纳
1
回答
MongoDB中GB数据的数据吞吐
、
、
、
、
我有各种各样的日志
文件
,其中包含数百万条记录。我想将记录从这些
文件
推送到mongodb,我必须在插入MongoDb之前将数据规范化,并
使用
ID上的筛选器,这是
文件
中每一行/record中常见的变量。}]我已经编写了Python脚本,但是它消耗了大量的内存,或者如果我用脚本限制内存的
使用
有人能建议
使用
APACHE、APACHE或任何东西来满足这种类型的需求吗?在卡夫卡和风暴之前我从未用过它
浏览 2
提问于2017-07-31
得票数 1
回答已采纳
1
回答
GPU
数据流
体系结构
、
我想知道GPU的
数据流
结构。针对CUDA和DirectX分别提出了
并行
编程模型和图形流水线。但是,我想知道
数据流
结构(比如8086
处理
器的
数据流
结构)。
浏览 0
提问于2012-09-09
得票数 2
2
回答
从多个R
文件
中采购
、
、
、
、
目前我在我的本地机器上
使用
R,在那里我可以有条件地获取多个R脚本(因为它们被放在我的本地驱动器中)。 然而,当我需要在Google
数据流
中的RENJIN上
使用
相同的脚本来实现
并行
性时,我无法源
文件
。我有多个扩展名为.R的R脚本
文件
。我需要读取主R脚本
文件
,并且需要在运行时传递到
数据流
中,但是主R
文件
必须引用其他R脚本
文件
的源标记。当从java读取主R
文件
内容并将其传递给google
数据流</
浏览 0
提问于2017-05-24
得票数 0
1
回答
Apache梁/
数据流
-流水线中各步骤之间的延迟
、
、
我
使用
Aapche Beam (带有
数据流
运行程序)下载二进制
文件
(天气预报,大约300个
文件
),然后解码它们,然后将结果存储为CSV,然后将CSV加载到BigQuery中。BigQuery |迁移到Dataflow的原因之一是,
并行
化容易影响到工作人员在日志中,我似乎遗漏了对
数据流
的总体理解中的一些部分。 我认为,一旦完成了来自上游的元素
浏览 0
提问于2018-02-13
得票数 2
回答已采纳
1
回答
ContainerRequestState [信息]队列中不再有挂起的请求
、
、
、
、
我
使用
的是一个有3个节点的MapR (YARN)集群。我正在尝试在集群上部署6个Samza作业,以便对
数据流
进行一些
处理
。所有作业都是正确的。我尝试
并行
部署2-3,它们都有效。但是,当我
并行
部署所有6个Samza作业时,我看到以下日志。任务将继续运行,并且不会产生预期的输出
数据流
。 我认为可能应用程序没有足够的资源来
并行
运行所有这些应用程序。我可以试一下什么变化?
浏览 2
提问于2016-06-10
得票数 1
1
回答
Cloud Firestore -
并行
单个写入与
并行
批量写入
、
、
有没有人比较过
并行
单个写入和
并行
批量写入与Firestore之间的性能? 我每天都在尝试
使用
数据流
导入作业将数据写入Firestore,并且能够在10分钟内写入大约250万条记录。目前,写入是以批
处理
模式完成的,批
处理
大小为400。 只是好奇单个写入是否可以提供比批量写入更高的性能?
浏览 19
提问于2021-04-16
得票数 0
1
回答
地图缩减中的大数据
文件
处理
、
、
所以我所知道的是,有一些Mappers在几台计算机上
并行
运行,然后创建一个结果集,然后由在多台机器上
并行
运行的还原器
使用
它来创建预期的数据集。 如果不是,那么我们如何
处理
可能来自不同来源的
数据流
,比如Twitter提要等等?
浏览 1
提问于2013-10-02
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券