使用to_parquet()将dask dataframe写入parquet会导致"RuntimeError:文件元数据仅在writer关闭后可用“

、、、、

我正在尝试在拼图文件中使用store Dask dataframe。我已经安装了pyarrow库。import numpy as npimport dask.dataframe as dd 685 if self.file

浏览 60提问于2021-10-03得票数 0

2回答

是否有一种使用带分区的熊猫to_parquet覆盖现有数据的方法？

、、

我使用熊猫来使用带分区的to_parquet函数编写一个拼花文件。示例：问题是每次我运行代码。它在分区中添加了一个新的parquet文件，当您读取数据时，每次运行脚本时都会得到所有数据。从本质上说，数据每次都会追加。有没有办法在每

浏览 19提问于2022-02-17得票数 3

2回答

分区取水数据源

、、

我有一个大型的每日文件数据集，位于/some/data/{YYYYMMDD}.parquet (也可以是smth类似于/some/data/{YYYY}/{MM}/{YYYYMMDD}.parquet)我将mycat.yaml文件中的数据源描述为： source_paritioned: engine: pyarrow urlp

浏览 9提问于2021-11-09得票数 2

1回答

dask.read_parquet导致OOM错误

、、

我一直在使用dask对多个csv文件执行数据清理。import Client cols_to_keep = ["barcode", "salesdate", "storecode", "quantity在使用pandas的to_parquet()方法将csv文件转换为.parquet

浏览 7提问于2018-08-08得票数 1

回答已采纳

3回答

Dask DataFrame.to_parquet在读重分区写入操作中失败

、、、、

df df = dask.dataframe.from_delayed但是，最后的to_parquet调用将永远挂起。在dask仪表板上，没有任何活动。当df.visualize()中有236个文件被重新划分为41个分区时，files_list ()如下所示：如果有10k文件，您知道是什么原因<e

浏览 12提问于2022-03-15得票数 2

回答已采纳

1回答

在执行以下操作时：Dask.dataframe.to_parquet(data)，如果通过Dask读取具有给定分区数量的data，并且您在移除一些列后尝试将其保存为parquet格式，则会失败，并显示以下错误： FileNotFoundError: [Errno 2] No such file or directory: part.0.parquet' 有人遇到过同样的问题吗？下面是一个最小的例子--请注意，方法1按预期工作，而方法2则不是： import n

浏览 19提问于2021-03-25得票数 1

回答已采纳

1回答

Dask无法使用连接的数据写入拼图

、、

我正在尝试做以下几件事：使用pandas读取.dat文件，将其转换为dask数据帧，并将其连接到我从拼图文件中读取的另一个dask数据帧，然后输出到新的拼图文件。当我在python脚本中这样做时，脚本完成了，但是整个组合文件并没有被写出来(我知道因为它的大小- CSV是140MB，parquet文件大约是1 1GB to_parquet的输出只有20MB)。在某些情况下，这是一个

浏览 26提问于2020-06-13得票数 1

3回答

带有pyarrow内存的dask* read_parquet发生故障*

、、

我正在使用dask来写和读拼花。我使用快速拼接引擎进行写作，使用pyarrow引擎进行阅读。我的worker有1 gb的内存。对于fastparquet，内存使用率很好，但当我切换到pyarrow时，它就会崩溃，并导致worker重新启动。我有一个可重现的例子，在一个1 1gb内存限制的worker上，pyarrow失败了。任务: 0.17.1快速镶木地板: 0.1.3 import dask.dataframe</

浏览 0提问于2018-06-15得票数 3

1回答

从spark插入到群集配置单元表

、、

我正在尝试对数据存储进行一些性能优化。这个想法是使用配置单元的分组法/集群来存储可用的设备(基于列id)。我目前的方法是根据拼接文件将外部表中的数据插入到表中。因此，它应用了分组法。;仍然会导致不同的

浏览 0提问于2018-02-27得票数 2

1回答

dataframe连接和重新分区大文件，用于时间序列和相关性。

、、、

在此之后，我尝试了后一种解决方案，并做到了：df = dd.read_parquet("/blah/parquet/",/SDO/AIA/parquet/combined") 但在第二步，达斯克炸毁了我的记忆，我的内核关闭。由于Dask非常关注处理比内存更大的数据，

浏览 29提问于2022-06-20得票数 1

1回答

用Python和(或)熊猫制作的人造板柱

、、、、

('original.csv')df3 = df2.to_dict('records')pd.DataFrame(df3).to_parquet(&

浏览 0提问于2021-02-27得票数 1

回答已采纳

3回答

使用Spark在s3上通过s3a编写一个拼花文件是非常慢的

、、、、

我正在尝试使用parquet将一个Amazon S3文件写入Amazon S3。我正在生成的小parquet是曾经编写的~2GB，所以它不是那么多数据。我试图证明Spark是我可以使用的平台。这些数据来自一个供应商提供的csv文件，我正在使用Spark作为一个ETL平台。我目前在ec2(r3.2xlarge)中有一个3节点集群，所以执行器和16个核心上的内存120GB总计。输入文件

浏览 0提问于2016-04-29得票数 22

1回答

Impala 2.7无法从用Tez创建的蜂巢中读取任何数据

、、

我正在使用一个使用多个union操作符的查询来填充一个分区的Hive表。使用Tez执行查询，默认设置会导致多个并发的Tez编写器创建HDFS结构，其中parquet文件位于分区文件夹下的子文件夹中(文件夹名为Tez写器ID )。例如/apps/hive/warehouse/scratch.db/test_table/part=p1/8/0

浏览 1提问于2017-11-08得票数 0

回答已采纳

2回答

是否有Pandas的数据集文件格式可以在多个列上索引(即“数据库-索引”)和/或可以廉价更新？

、

我正在为内存更大的数据集构建一个交互式浏览器和编辑器，稍后将使用Pandas进行处理。因此，我需要对数据集进行交互排序或过滤的几个列上索引(数据库索引，而不是Pandas索引)，我希望dataset文件格式支持廉价编辑，而无需重写大部分文件。就像数据库一样，我只希望能够在之后以与Pandas兼容的格式发送文件，而不需要导出。可以选择在多个列上构建数据库索引(用于排序和筛选)。如果没

浏览 1提问于2018-03-02得票数 2

5回答

如何在写入csv时保留空值

、、、

我使用Python的csv模块将数据从sql服务器写入csv文件，然后使用copy命令将csv文件上传到postgres数据库。问题是Python的csv编写器会自动将Nulls转换为空字符串"“，而且当列是int或float数据类型时，它会失败，并且它试图插入这个”当它应该是空值或空值时“。示例：42.313270000 -71.1162400

浏览 7提问于2019-02-21得票数 13

回答已采纳

1回答

用L2存储L2刻度数据

、

序言： dtype=object) Numpy不喜欢数组的锯齿状，虽然我很高兴(足够)使用np.pad将时间

浏览 3提问于2020-07-19得票数 0

1回答

Dask:在大数据文件上设置索引会导致处理过程中高磁盘空间的使用。

、、、

我正在处理一个大型数据集(22万行，~25 of作为csv文件)，该数据集存储为几个csv文件。我已经成功地用Dask读取了这些csv，并将数据保存为一个带有以下内容的拼花文件：from dask.distributed import Client然而，这个数据

浏览 7提问于2021-03-02得票数 0

5回答

读取地块文件时刷新Dataframe的元数据

、、、

我正在尝试将拼图文件作为数据帧读取，它将定期更新(路径为/folder_name。每当有新数据到来时，旧的地块文件路径(/folder_name)将被重命名为临时路径，然后我们合并新数据和旧数据并将其存储在旧路径(/folder_name)中。读取数据，但由于更新，文件名发生了更改，我遇到了以下问题 java.io.FileNotFoundException:文件不存在：hdfs:&#x

浏览 1提问于2019-11-08得票数 4

12回答

向熊猫DataFrame添加元信息/元数据

、

能为熊猫DataFrame添加一些元信息/元数据吗？一种解决方法是使用该信息创建一个列，但是在每一行中存储一条信息似乎是浪费的！

浏览 5提问于2013-02-04得票数 137

回答已采纳

5回答

为什么FileInputStream read()没有阻塞？

、、、

我有一个Writer程序，它将一行文本写入文件，然后等待用户点击返回，然后再写入另一行，然后退出。只有在此之后，文件才会关闭。如果还没有可用的输入，则此方法将阻止。Via：但是ReaderFIS是在阅读“你好世界”之后立即完成的，并且显然看到了一个EOF！所以它做的是而不是块！available()、使用缓冲区尝试read()、尝试readLine()、在文件中连续写入一个字符，每次写入

浏览 2提问于2010-09-09得票数 6

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

是否有一种使用带分区的熊猫to_parquet覆盖现有数据的方法？

分区取水数据源

dask.read_parquet导致OOM错误

Dask DataFrame.to_parquet在读重分区写入操作中失败

保存到拼图会在Dask.dataframe中抛出错误

Dask无法使用连接的数据写入拼图

带有pyarrow内存的dask* read_parquet发生故障*

从spark插入到群集配置单元表

dataframe连接和重新分区大文件，用于时间序列和相关性。

用Python和(或)熊猫制作的人造板柱

使用Spark在s3上通过s3a编写一个拼花文件是非常慢的

Impala 2.7无法从用Tez创建的蜂巢中读取任何数据

是否有Pandas的数据集文件格式可以在多个列上索引(即“数据库-索引”)和/或可以廉价更新？

如何在写入csv时保留空值

用L2存储L2刻度数据

Dask:在大数据文件上设置索引会导致处理过程中高磁盘空间的使用。

读取地块文件时刷新Dataframe的元数据

向熊猫DataFrame添加元信息/元数据

为什么FileInputStream read()没有阻塞？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐