我正试图使用dask_cudf对一个非常大的数据集(150,000,000+记录)进行预处理,以便进行多类xgboost培训,并且无法对类列(dtype is string)进行编码。我试着使用“替换”函数,但是错误消息说这两个dtype必须匹配。我试过使用dask_ml.LabelEncoder,但它说cudf中不支持字符串数组。我尝试过以各种方式使用compute(),但是我一直遇到内存不足的错误(我假设是因为cudf dataframe上的操作需要一个更小的数据集)。我还尝试取出类
对于当前的项目,我计划合并两个非常大的CSV文件与Dask作为一个替代潘达。我已经安装了达斯克彻底的pip install "dask[dataframe]"。但是,在运行import dask.dataframe as dd时,我会收到反馈ModuleNotFoundError: No module named 'dask.dataframe'; 'dask
我正在尝试学习如何使用dask模块来克服脚本中的内存问题。当我读取csv并从它创建dask数据帧时,我得到了以下错误: File "C:\Users\username\AppData\Local\Programs\Python\Python39\lib\site-packagesfile://"):
AttributeError: '_io.TextIOWrapper' object has no attribute 'start