为什么用DASK Delayed合并比用DASK内置命令合并要花更多的时间？

DASK是一个灵活且可扩展的并行计算框架，用于处理大规模数据集。在DASK中，有两种常见的合并方式：使用DASK Delayed实现自定义合并，以及使用DASK内置命令执行合并操作。

DASK Delayed合并比使用DASK内置命令合并花费更多时间的原因是，DASK Delayed的合并方式涉及到更多的中间步骤和计算过程，导致了额外的计算开销和延迟。

具体来说，DASK Delayed合并的流程包括以下几个步骤：

创建延迟对象：使用dask.delayed装饰器将原始的计算函数转换为延迟对象，以实现懒执行。
构建任务图：根据延迟对象的依赖关系构建一个任务图，其中每个节点代表一个延迟对象的计算任务。
计算任务图：执行任务图中的每个节点，按照依赖关系依次计算，并生成相应的中间结果。
合并结果：将中间结果按照指定的方式进行合并，得到最终的结果。

相比之下，使用DASK内置命令合并的流程更加直接和高效。DASK内置命令已经经过了优化和调整，可以充分利用DASK的并行计算能力，减少了中间步骤和计算开销。

因此，当使用DASK Delayed进行合并时，由于中间步骤和计算开销的增加，导致了额外的时间花费。而使用DASK内置命令进行合并则能够更高效地利用DASK的并行计算能力，从而节省时间。

需要注意的是，选择使用哪种合并方式还取决于具体的应用场景和需求。有些情况下，使用DASK Delayed可以更好地满足自定义需求；而在需要高效处理大规模数据时，使用DASK内置命令合并可能更为合适。

对于DASK的更多信息和使用示例，您可以参考腾讯云的DASK产品介绍页面：DASK产品介绍。

页面内容是否对你有帮助？

有帮助

没帮助

为什么用DASK Delayed合并比用DASK内置命令合并要花更多的时间？

、、、、

我想在名为"key“的列上，将形状为df1.shape = (80000，18)的大型熊猫数据帧合并为形状为df2.shape = (1，18)的小型熊猫数据帧。以下是使用dd.merge时的时间性能： ddf1 = from_pandas(df1, npartitions=20)start然后，我开始使用dask以这种方式延迟实现此功能： de

浏览 17提问于2021-01-19得票数 1

回答已采纳

1回答

dask.bag / dask.delayed for循环有什么不同，在dask中选择更好的方式进行python并行作业

、、

： @dask.delayed return x+y for i in range(1000):rt = dask.compute(*rt) 它显示了Wall time: 3.23 s 第二个:基于列表的包，带有map函数： import dask.bag asone比bag one需要更多的时间</e

浏览 25提问于2020-01-27得票数 0

回答已采纳

2回答

使用dask* hdf/parquet的Python大型数据集特征工程工作流*

、、、、

已经有了一个很好的问题，但最好的答案是现在已经5年了，所以我认为2018年应该有更好的选择。首先，我把大csv文件分割成多个小的“地板”文件。这样，dask对于计算新特性是非常有效的，但是，我需要将它们合并到初始数据集和atm中，我们不能在parquet文件中添加新的列。逐块读取csv，

浏览 0提问于2018-03-29得票数 2

2回答

如何高效地分析多个csv文件？

、、、

到目前为止，我已经尝试了以下方法：将所有这些文件合并到一个文件中，并将其存储在DataFrame ( Python)中，并对它们进行分析。

浏览 5提问于2017-07-19得票数 1

1回答

带有dask* sel的xarray是慢的。*

、、

一系列大约90个netCDF文件，每个文件大约27 MB，使用xarray的open_mfdataset打开，加载一个小的空间时间选择需要很长时间。用dask.visualize生成一个

浏览 1提问于2019-04-21得票数 3

回答已采纳

2回答

dask能取代资源管理系统吗？

地球问候，

浏览 1提问于2018-01-16得票数 1

回答已采纳

1回答

为什么ffmpeg的hstack比覆盖和衬垫慢得多？

我用ffmpeg将两段视频拼接在一起，视频中的人和每个人一起聊天，就像这样：下面是我目前用来完成这一操作的命令，它在我的13“M1 MacBook Pro上运行到大约2.5倍： ffmpeg(裁剪使视频居中)，然后将右侧视频的四分之一宽度移到右侧，然后将左侧视频覆盖在输出的左侧，并与移动的右视频合并。有一天，在我每周的一次有趣的阅读中，我偶然发现了一个名为的过滤器，它被描述为</

浏览 1提问于2021-01-22得票数 3

回答已采纳

1回答

Bash与Perl/Python: OS调用perfomace

、、、

bla | grep bla";}while true;done; 在CPU利用率方面，我得到了相当大的差异下面是我要解决的问题:我们有一些用Bash编写的遗留脚本，每X秒运行一次。经过检查，我们注意到它们消耗了很大一部分资源。在将这些脚本重写为Perl/Python之后，CPU利用率显著下降。Bash脚本主要使用调用外部程序(awk、cut、grep、sed等)，而Perl/P

浏览 6提问于2014-11-04得票数 2

回答已采纳

2回答

不使用Tk python就创建秒表(不是倒计时或计时器)

、

我试图为我的模块做一个秒表功能。它是记录我的模块被调用到完全导入的时间。我之所以试图记录这一点，是因为我的模块需要花费很长时间才能加载(因为它需要从外部源编译数据并将这些数据合并到列表中)。我对许多选项开放，只要它们使用python的内置模块。如果已经有这样的东西，如果你能告诉我，那就太好了。提前感谢！如果您需要更多的信息，只需留下评论，我会回复您。下面是Pyt

浏览 2提问于2014-12-24得票数 1

回答已采纳

2回答

用于asp.net应用程序安装程序的wix还是安装屏蔽？

、、

为asp.net应用程序创建安装程序的最佳工具是什么？我的目标是：恢复sqlserver上的数据

浏览 1提问于2012-12-19得票数 1

2回答

我每天得到一次csv，其中包含大约2.25亿行的一个名称列。我每天得到的csv中99%的名字已经在数据库中了。所以，我想要做的是，对于所有已经在那里的人，我将他们的timestamp1列更新为UNIX_TIMESTAMP(NOW())。然后，所有不在原始表中的名称，而是在csv中添加到原始表中的名称。UNIX_TIMESTAMP(NOW()) AS timestamp1, UNIX_TIMESTAMP(NOW()) AS timestamp2 FROM

浏览 3提问于2021-10-27得票数 0

2回答

在flex中禁用脚本的最大执行时间？

、、、

如何在flex中完全禁用脚本的max-execution-time？可配置的最大值是60秒，但我将调用其他交互式进程，它们可能会运行更长时间。有没有一种简单的方法来禁用整个应用程序的最大脚本执行时间？

浏览 0提问于2010-04-03得票数 1

回答已采纳

6回答

对大量数据进行排序的算法

、

到目前为止，我发现的唯一候选是合并排序:您可以实现该算法，使其能够在每次合并时扫描数据集，而无需同时将所有数据保存在主内存中。我所想到的合并排序的变化在这篇文章中在磁带驱动器的使用部分中进行了描述。我认为这是一个很好的解决方案(复杂度为O( not (N)，但我很想知道是否有其他(可能更快)的排序算法可以工作在不适合主存的大型数据集上。编辑以下是答案所要求的更多

浏览 0提问于2012-01-03得票数 12

回答已采纳

1回答

从"ls -fR“获得”查找“样式输出的最佳方法

、

我的目标是找到最快的方法来列出目录中的所有可用文件(称之为主目录)。主目录包含大约500万个文件，使用子目录组织，但不清楚子目录是如何排列的。经过一些研究，我意识到最快的方法是使用ls -fR (-f禁用排序)。$ ls -fR dir1. subdir1 ..我想要的输出是find生成的输出(查找所需的时间是原来的两倍)： $ find dir

浏览 4提问于2021-08-08得票数 0

回答已采纳

4回答

不断壮大的开发团队- Dreamweaver签入/签出问题

、、

我们相对较小的开发团队对Dreamweaver感到有点厌烦。我们唯一依赖的功能就是它的文件签入系统。由于团队可能会在接下来的几个月里增长，我们需要解决这些问题。Subversion已经引起了我们的注意，但不确定它是否适合我们的需求。提前谢谢。

浏览 0提问于2009-08-21得票数 3

回答已采纳

2回答

直接使用LLVM是否容易实现-O3级的优化？

、

用LLVM实现高水平的优化是容易的吗？为了给出一个具体的例子，让我们假设我有一个简单的语言，我想为它编写一个编译器。

浏览 5提问于2011-10-09得票数 5

回答已采纳

1回答

很多小文件和128 Mb块大小的HDFS行为

、

我有很多(高达数十万)的小文件，每个文件10-100 Kb.我的HDFS块大小等于128 MB。复制因子等于1。但是，从HDFS中批量读取10.000个小文件怎么样？更新:我的用例我只有一个用于小文件的用例，从1.000到500.000。我计算文件一次，存储它，

浏览 2提问于2017-05-08得票数 4

回答已采纳

9回答

熊猫作业进度指标

、、

我经常在超过1500万行的数据帧上执行熊猫操作，我希望能够获得特定操作的进度指示器。我希望在熊猫图书馆/文档中有一

浏览 19提问于2013-09-03得票数 296

回答已采纳

2回答

扩展运行实例的GCE根持久磁盘大小的最佳实践是什么？

、、、

我正在运行一个PostgreSQL实例，它的磁盘大小为10G，现在几乎已经满了。使用更大的磁盘为PostgreSQL创建一个新实例可能是一种选择，但我认为更改其他实例上的db设置需要花费大量时间。是否有任何最佳做法来最大限度地减少停机时间来扩展正在运行的实例的磁盘大小？

浏览 4提问于2014-07-18得票数 0

回答已采纳

3回答

克隆github项目的部分

、、

这是我第一次尝试使用github，我刚刚安装了tortoisegit，我习惯了svn和cvs，在那里你可以只拿一个想要签出的文件夹，但是git似乎只有根文件夹中的.git文件，所以我不知道该做什么。

浏览 3提问于2009-10-24得票数 25

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么用DASK Delayed合并比用DASK内置命令合并要花更多的时间？

相关·内容

为什么用DASK Delayed合并比用DASK内置命令合并要花更多的时间？

dask.bag / dask.delayed for循环有什么不同，在dask中选择更好的方式进行python并行作业

使用dask* hdf/parquet的Python大型数据集特征工程工作流*

如何高效地分析多个csv文件？

带有dask* sel的xarray是慢的。*

dask能取代资源管理系统吗？

为什么ffmpeg的hstack比覆盖和衬垫慢得多？

Bash与Perl/Python: OS调用perfomace

不使用Tk python就创建秒表(不是倒计时或计时器)

用于asp.net应用程序安装程序的wix还是安装屏蔽？

基于另一个太慢的大表的大型表的MySQL更新

在flex中禁用脚本的最大执行时间？

对大量数据进行排序的算法

从"ls -fR“获得”查找“样式输出的最佳方法

不断壮大的开发团队- Dreamweaver签入/签出问题

直接使用LLVM是否容易实现-O3级的优化？

很多小文件和128 Mb块大小的HDFS行为

熊猫作业进度指标

扩展运行实例的GCE根持久磁盘大小的最佳实践是什么？

克隆github项目的部分

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐