要设置pyarrow表列的'category'数据类型,可以按照以下步骤进行操作:
import pyarrow as pa
import pandas as pd
data = {'col1': ['A', 'B', 'C', 'A', 'B', 'C'],
'col2': [1, 2, 3, 4, 5, 6]}
df = pd.DataFrame(data)
table = pa.Table.from_pandas(df)
schema = pa.schema([
('col1', pa.string()),
('col2', pa.int64())
])
schema = schema.with_metadata({ 'pandas': '{"column_indexes": [0], "columns": [{"name": "col1", "pandas_type": "categorical", "numpy_type": "object", "metadata": {"num_categories": 3}}]}' })
table = table.cast(schema)
print(table.schema)
以上步骤将会创建一个包含'category'数据类型的pyarrow表。请注意,'category'数据类型适用于具有有限数量的不同值的列,可以提高内存效率和查询性能。
腾讯云相关产品和产品介绍链接地址:
请注意,以上链接仅供参考,具体产品和服务详情请参考腾讯云官方网站。
领取专属 10元无门槛券
手把手带您无忧上云