我正在尝试从成百上千个大型CSV文件的单个列中创建一个Keras Tokenizer。Dask似乎是一个很好的工具。我目前的方法最终会导致内存问题: df = dd.read_csv('data/*.csv', usecol=['MyCol'])
# This greatly reduces memory consumption, but eventually materializesmy_id
userGroup数据帧有150万行,itemGroup有72000行。Updated biases and factors for each user 然后我获取初始数据帧,并首先通过用户连接它-我从初始数据帧中获取user_id、item_id和rating,并从userGroup数据帧中获取偏差和因素。我必须迭代地重复上述步骤,每次迭代都会进一步减慢执行.count()操作的时间。 我知道问题出在数据<