我是处理大型数据集的新手,是google colab的新手。我有一个62 GB的数据集,我把它压缩到google的Files部分。
上传之前,它是68 GB可用,所以我不能上传压缩文件和解压缩,我没有足够的内存。有谁能帮我在google或任何平台上处理这些数据集吗?我目前是一个学生,没有太多的钱购买更好的内存空间。
非常感谢。
发布于 2022-04-17 18:51:23
您可以使用以下4种方法()将数据集上载到Colab笔记本上
1.使用!wget将数据集下载到服务器
Colab实际上是一个带有GPU的Centos虚拟机。您可以直接使用linux wget命令将数据集下载到服务器。默认情况下,下载到/content路径
下载并解压缩dataset命令:
#!wget https://download.pytorch.org/tutorial/hymenoptera_data.zip
#!unzip hymenoptera_data.zip -d ./加载数据集命令:
# Define the dataset using ImageFolder
# define data preprocessing
train_tf = tfs.Compose([
tfs.RandomResizedCrop(224),
tfs.RandomHorizontalFlip(),
tfs.ToTensor(),
tfs.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) # Use ImageNet mean and variance
])
train_set = ImageFolder('./hymenoptera_data/train/', train_tf)2.使用Google磁盘加载数据集
首先,在Colab中挂载Google磁盘的命令如下所示。执行后,您将被要求输入要挂载的Google帐户的键。
from google.colab import drive
drive.mount('/content/drive/')将文件上传到Google,例如data/data.csv。上传的一种方法是手动上传,另一种是通过wget命令下载到Google磁盘,然后加载以供使用
存储在Google磁盘中的优点是,下次像第一种方法那样进行连接时,数据不会丢失。缺点是Google云磁盘只有15g,这不适合大数据集。将数据集下载到Google云磁盘的命令如下:
import os
#Change the current working directory to the path of Google Cloud Drive
path="/content/drive/My Drive/Colab Notebooks/"
os.chdir(path)
os.listdir(path)
#Use the wget command to download the dataset to this path
!wget https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/data.csv负载数据集
train = pd.read_csv('/content/drive/My Drive/Colab Notebooks/data/data.csv')3. kaggle的加载数据集
如果您在kaggle上玩游戏,您需要的数据集已经准备好了,您可以使用kaggle命令直接下载它。您需要选择在我的kaggle配置文件中创建一个api令牌,然后在本地生成用户名和密钥。
{"username":"gongenbo","key":"f26dfa65d06321a37f6b8502cd6b8XXX"}下面以驱动状态检测项目为例,地址:https://www.kaggle.com/c/state-farm-distracted-driver-detection/data
命令通过kaggle下载数据。
!pip install -U -q kaggle
!mkdir -p ~/.kaggle
!echo '{"username":"gongenbo","key":"f26dfa65d06321a37f6b8502cd6b8XXX"}' > ~/.kaggle/kaggle.json
!chmod 600 ~/.kaggle/kaggle.json
!kaggle competitions download -c state-farm-distracted-driver-detection训练后向kaggle提交分数的命令
!kaggle competitions submit -c state-farm-distracted-driver-detection -f submission.csv -m "Message"4.使用“上载”按钮将上载到磁盘
谷歌提供了67G的磁盘空间。使用“上传”按钮上载下面的图像。这种方法适用于小型数据集或自己的数据集:

发布于 2022-08-15 07:56:09
在乔维安有一个叫做开放数据集的库。
首先,将它安装到colab中,使用-
!pip install opendatasets --upgradeimport opendatasets as od
dataset_url = 'https://www.kaggle.com/tunguz/us-elections-dataset'
od.download(dataset_url)URL可以是任何链接,无论是google还是kaggle链接。
https://stackoverflow.com/questions/71619540
复制相似问题