正如标题所述,我想通过使用pyarrow并写入几个拼图文件来按大小(或行组大小)对pyarrow表进行重新分区。 我已经查看了pyarrow文档,并确定了分区数据集章节,这似乎是一个方向。不幸的是,它表明可以按列内容进行分区,但不能按大小(或行组大小)进行分区。 那么,从一个表开始,我如何控制写入步骤,以便以受控的大小x MB写入多个文件?(或行组大小) import pandas as pdimport pyarrow as pa
import pyarrow.parquet as
我有一个查询,它适用于1000条或更少的记录,但现在我需要为50,000+记录优化它,当我在上面运行它时,它只是停滞不前…SELECT b2.effective_date as ed2,b2.amount as am2left join bill b2 on (b1.account_num=b2.account_num)
where b1.effective_date = (select max(effective_date)