在Jupyter笔记本中自动缓存pandas读取的文件可以通过以下步骤实现:
import pandas as pd
import os
def check_cache(file_path):
cache_dir = './cache'
if not os.path.exists(cache_dir):
os.makedirs(cache_dir)
cache_file = os.path.join(cache_dir, file_path.replace('/', '_') + '.pkl')
if os.path.exists(cache_file):
return pd.read_pickle(cache_file)
else:
return None
def read_file(file_path):
cached_data = check_cache(file_path)
if cached_data is not None:
return cached_data
data = pd.read_csv(file_path)
data.to_pickle('./cache/' + file_path.replace('/', '_') + '.pkl')
return data
read_file
函数来读取文件:file_path = 'path/to/file.csv'
data = read_file(file_path)
这样,第一次读取文件时会将数据缓存到./cache
目录下,并将文件命名为替换斜杠后的文件名加上.pkl
的扩展名。下次再读取同一文件时,会首先检查缓存目录中是否存在对应的缓存文件,如果存在则直接读取缓存文件,节省了读取文件的时间。
请注意,以上代码仅为示例,实际应用中可能需要根据具体情况进行适当调整。此外,由于问答内容要求不能提及特定的云计算品牌商,故无法给出相关产品和产品介绍链接地址。
领取专属 10元无门槛券
手把手带您无忧上云