我正在使用Azure ML notebooks,并使用azureml.core读取日期集并转换为azureml.data.tabular_dataset.TabularDataset。无论如何,我会过滤tabularDataset中的数据,而不是转换为pandas数据帧。我使用下面的代码来读取数据。由于数据量巨大,pandas数据帧正在耗尽内存。我不需要将完整的数据加载到程序中。有没有办法在转换为pandas数据框之前过滤记录 def read_Dat
我现在正在尝试在将其转换为pandas (to_pandas)之前过滤掉行。有没有办法在pyarrow.Table上使用新的Dataset API (可以在ParquetDataset上使用)中的filter方法?这将允许我使用这样的过滤器:看一下源代码,pyarrow.Table和pyarrow.RecordBatch似乎都有一个过滤<