我试图使用dask聚合一个包含多行坏数据的大型(66 of )数据库。导入dask.dataframe作为dd从dask.distributed导入客户端导入熊猫
#Groups the average Thresholds by NEATGenerationWrites aggregated dat
矩阵X存储在磁盘上的h5py文件中.得到的Y应该是存储在同一个h5py文件中的10,000*10,000矩阵。这里是一个可重复的示例代码。import dask.array as da
into("h5py:///tmp/dummy::/X", da.ones((10**4, 8*10**5中间结果一旦被单独计算,就会一个一个地被总结成最后一个和结果。这似乎表明sum操作
我有一个数据脚本应用程序,它使用dask遍历数据库并产生一些中间产物,然后将这些中间产物组合起来产生结果。现在我想高效地写出中间产物和结果,但正如你在下面看到的,我只发现了一种非常低效的方法,计算中间产物多于1。import dask.bag as dbprocessing_parameter/data/result.*.txt') 我看到的另一种选择是将中间件写到文件<em