使用pyarrow重新划分pyarrow表的大小，并将其写入几个拼图文件？

使用pyarrow重新划分pyarrow表的大小，并将其写入几个拼图文件，可以通过以下步骤实现：

导入必要的库和模块：

import pyarrow as pa
import pyarrow.parquet as pq

读取原始的pyarrow表数据：

table = pa.Table.from_pandas(df)

这里的df是原始数据的Pandas DataFrame。

划分表的大小：

chunk_size = 1000000  # 设置每个拼图文件的大小
num_chunks = len(table) // chunk_size + 1  # 计算拼图文件的数量

# 将表按照指定大小划分为多个拼图文件
chunks = [table[i*chunk_size:(i+1)*chunk_size] for i in range(num_chunks)]

将拼图文件写入磁盘：

output_dir = 'path/to/output/directory'  # 设置输出目录

# 将每个拼图文件写入磁盘
for i, chunk in enumerate(chunks):
    output_file = f'{output_dir}/chunk_{i}.parquet'
    pq.write_table(chunk, output_file)

这里的path/to/output/directory是输出目录的路径，可以根据实际情况进行修改。

以上步骤将原始的pyarrow表按照指定大小划分为多个拼图文件，并将每个拼图文件写入磁盘。这样可以方便地处理大型数据集，并且可以提高数据读取和处理的效率。

推荐的腾讯云相关产品：腾讯云对象存储（COS）。腾讯云对象存储（COS）是一种高可用、高可靠、安全、低成本的云存储服务，适用于存储和处理任意类型的文件和数据。您可以将拼图文件存储在腾讯云对象存储中，并通过腾讯云的其他服务进行进一步的数据处理和分析。

更多关于腾讯云对象存储（COS）的信息，请访问：腾讯云对象存储（COS）产品介绍。

使用pyarrow重新划分pyarrow表的大小，并将其写入几个拼图文件？

、、、

正如标题所述，我想通过使用pyarrow并写入几个拼图文件来按大小(或行组大小)对pyarrow表进行重新分区。我已经查看了pyarrow文档，并确定了分区数据集章节，这似乎是一个方向。不幸的是，它表明可以按列内容进行分区，但不能按大小(或行组大小)进行分区。那么，从一个表</em

浏览 36提问于2020-12-15得票数 1

回答已采纳

1回答

拼图创建从pandas dataframe到pyarrow表的转换不适用于对象数据类型

、、

我想从csv文件创建一个拼图文件。出于测试目的，我有下面的一段代码，它读取一个文件，并首先将其转换为pandas dataframe，然后再转换为pyarrow表。然后将该表存储在亚马逊网络服务S3上，并希望在该表上运行配置单元查询。dataFrame.dtypes)pq.writ

浏览 2提问于2017-04-07得票数 0

2回答

使用pandas和dask合并具有不同模式的地块文件

、、、、

我有一个包含大约1000个文件的拼图目录，模式是不同的。我想通过文件重新分区将所有这些文件合并到最佳数量的文件中。我使用pandas和pyarrow从目录中读取每个分区文件，并将所有数据帧连接在一起，并将其作为一个文件写入。使用这种方法，当数据大小增长时，我会遇到内存问题并

浏览 11提问于2020-05-22得票数 1

1回答

如何利用IO流生成PyArrow数据集？

我有一个python程序，它以文件的形式读取一个拼图文件，并试图用它来构造一个pyarrow数据集。我可以使用以下方法将文件编辑器读入比罗罗表中：但是，将文件读取程序直接传递给数据集初始化程序会导致错误这是有意义的，因为pyar

浏览 8提问于2022-01-25得票数 0

7回答

Python:将pandas数据帧保存到拼图文件

、、

可以将pandas数据框直接保存到拼图文件中吗？如果没有，建议的流程是什么？目标是能够将拼图文件发送给另一个团队，他们可以使用scala代码读取/打开该文件。谢谢!

浏览 0提问于2016-12-10得票数 27

1回答

使用pyarrow读取大型压缩json文件，类似于pandas阅读器功能。

、

我有一个很大的压缩json文件，未压缩的单个文件大约有128GBs。使用.gz压缩时，文件大小约为21 is。我想利用pyarrow以块的形式读取文件，并将其转换为拼图数据集。，但是我想直接使用apache arrow，而不必先进入分块的pandas数据帧，然后再转到apache箭头表。我曾尝试使用py

浏览 59提问于2020-11-06得票数 0

1回答

将Pandas df写入Pyarrow* Parquet表将导致“越界”时间戳的发行*

、、、、

当我试图将熊猫的数据转换成一张比索表并写入一个拼花数据集时，我收到了一条out of bounds timestamp错误消息。从一些研究来看，这似乎是熊猫使用纳秒精度的结果，而皮亚罗只能解释到毫秒的精度，我相信。当我评论最后一行时：..

浏览 2提问于2020-09-10得票数 4

1回答

皮亚罗的拼花档案，还是只为熊猫？

、、

我一直在测试Azure上的地板文件，而不是将数据加载到PostgreSQL表中，因为我对熊猫做了很多提取/转换步骤，并且可能很快就会发现火花。是否有任何利弊使用吡箭打开csv文件而不是pd.read_csv？我是否应该使用pyarrow来编写拼图文件而不是pd.to_parquet？最终，我将存储原始文件(csv、json和xlsx)。我用熊猫或pyarrow阅读了这些文件<

浏览 1提问于2019-09-15得票数 3

3回答

在相同环境下使用CLI读取DataFrame与可执行文件时的不同行为

、、、、

请考虑以的形式执行以下程序import pyarrow print(pyarrowPyinstaller创建的可执行文件运行它时，它不会读取columns=[]的数据。传递columns=[]在可执行文件中给出了空的dataframe，但是在直接运行python文件时，这种行为并不存在，我

浏览 4提问于2021-07-22得票数 10

回答已采纳

1回答

缺少新数据的PyArrow数据集

、、、

我有一个python进程，它使用Pyarrow=6.0.0将数据写入parquet文件。with pa_fs.open_output_stream(str(file_path)) as stream:要将数据表写入存储区，此时我可以查看文件及其内容。但是，如果我再次尝试使用read函数(dataset.to_table)，我仍然会得到一个空数据。为什么PyArrow</e

浏览 6提问于2022-03-14得票数 0

回答已采纳

4回答

可以分块读取拼图文件吗？

例如，pandas的read_csv有一个chunk_size参数，它允许read_csv在CSV文件上返回一个迭代器，这样我们就可以分块读取它。拼图格式以块的形式存储数据，但是没有像read_csv这样的有文档记录的方法来读入块。有没有办法以块的形式读取拼图文件？

浏览 3提问于2019-11-29得票数 8

1回答

pyarrow.lib.ArrowInvalid:无效空值

、、

我正在尝试使用apache beam管道，该管道最终保存了一个拼图文件，并使用py箭头和模式验证数据，我不知道为什么会收到这个错误：为了调试，我将数据保存在一个文本文件上

浏览 8提问于2022-03-14得票数 1

3回答

为什么索引名总是出现在与熊猫一起创建的拼花文件中？

、、、、

我正在尝试用熊猫数据创建一个拼花，即使我删除了文件的索引，当我重新读取这个文件时，它仍然会出现。有人能帮我吗？我希望index.name被设置为None。

浏览 0提问于2018-08-16得票数 5

回答已采纳

1回答

从pyarrow.Table转换到熊猫时处理大时间戳

、、、、

我将9999-12-31 23:59:59的时间戳存储在一个int96文件中。我使用pyarrow.dataset读取了这个拼花文件，并将生成的表转换为熊猫数据(使用pyarrow.Table.to_pandas())。然后，我使用这个熊猫数据集，将其转换回表，并使用pyarrow.dataset.write_dataset<e

浏览 4提问于2021-03-30得票数 2

1回答

用L2存储L2刻度数据

、

序言： I使用L2滴答数据。出价/报价不一定在级别的数量上保持平衡，级别的数量可以从0到20不等。希望每次更新<code>H19<//code>时将整本书保存到磁盘上，我相信我希望使用numpy数组来执行脱机数据，理想情况下，它是写到磁盘上的每个x更新或计时器上。，虽然我很高兴(足够)使用np.pad将时间/价格/大小降到20倍，但我不想为图书的创建时间创建数组。我能/应该以不同的方式去

浏览 3提问于2020-07-19得票数 0

3回答

写入输出文件时，Parquet `write_table`会将数据类型的键引入数据

、、

我在将数据写入拼图文件时遇到问题。我尝试了不同的pyarrow版本( 2.0和3.0)，但结果看起来是一样的。nullable=True) ('dogs', pa.list_(pa.struct(dog_fields)))我使用：pq_table = pa.Table.from_pydict(mapping=dog_data, schema=dog_schema)

浏览 5提问于2021-03-22得票数 0

3回答

Azure Synapse Serverless -- Azure Synapse无服务器池中流加载地板的意外结束

、、

尝试加载以下拼图文件，会导致Unexpected end of stream错误。也许拼花文件被破坏了？

浏览 3提问于2021-09-01得票数 2

回答已采纳

1回答

逐行构造pyarrow表的最快方法

、、

我有一个很大的字典，我想通过它来构建一个pyarrow表。字典的值是不同类型的元组，需要解压缩并存储在最后的pyarrow表中的单独列中。我确实提前知道了模式。键还需要作为列存储。下面有一个逐行构造表的方法--是否还有另一个更快的方法？对于上下文，我希望将一个大型字典解析为一个pyarrow表，以便将其写入一个拼花文件<

浏览 0提问于2019-09-14得票数 10

回答已采纳

1回答

重新划分拼花-mr生成的parquets带有pyarrow/parquet-cpp通过x30增加文件大小？

、、、

使用AWS消防软管，我正在把传入的记录转换为地板。在一个例子中，我有150 K相同的记录进入消防软管，一个30 to的拼板被写入到s3。由于消防软管分区数据的方式，我们有一个辅助进程(由s3 put事件触发)在拼板中读取并根据事件本身内的日期重新划分它。在这个重新分区过程之后，30 to的文件大小会跳转到900 to。检查两个地板文件</

浏览 0提问于2018-10-26得票数 1

回答已采纳

1回答

是否可以将数组追加到现有的AwkwardArray文件中？

、、、、

是否可以使用AwkwardArray (awkward0)附加到现有的拼图文件(由AwkwardArray编写)？普通笨拙的拼花地板存放下面的代码创建了一个内部有几个笨拙数组(例如音频数据)的拼图文件： import numpy as npimport pyarrow.parquetagain; success awk.fromparquet("audio.parquet&qu

浏览 31提问于2019-12-05得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用pyarrow重新划分pyarrow表的大小，并将其写入几个拼图文件？

相关·内容

使用pyarrow重新划分pyarrow表的大小，并将其写入几个拼图文件？

拼图创建从pandas dataframe到pyarrow表的转换不适用于对象数据类型

使用pandas和dask合并具有不同模式的地块文件

如何利用IO流生成PyArrow数据集？

Python:将pandas数据帧保存到拼图文件

使用pyarrow读取大型压缩json文件，类似于pandas阅读器功能。

将Pandas df写入Pyarrow* Parquet表将导致“越界”时间戳的发行*

皮亚罗的拼花档案，还是只为熊猫？

在相同环境下使用CLI读取DataFrame与可执行文件时的不同行为

缺少新数据的PyArrow数据集

可以分块读取拼图文件吗？

pyarrow.lib.ArrowInvalid:无效空值

为什么索引名总是出现在与熊猫一起创建的拼花文件中？

从pyarrow.Table转换到熊猫时处理大时间戳

用L2存储L2刻度数据

写入输出文件时，Parquet `write_table`会将数据类型的键引入数据

Azure Synapse Serverless -- Azure Synapse无服务器池中流加载地板的意外结束

逐行构造pyarrow表的最快方法

重新划分拼花-mr生成的parquets带有pyarrow/parquet-cpp通过x30增加文件大小？

是否可以将数组追加到现有的AwkwardArray文件中？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐