首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何将62 GB数据集上载到google

如何将62 GB数据集上载到google
EN

Stack Overflow用户
提问于 2022-03-25 15:35:18
回答 2查看 4.5K关注 0票数 2

我是处理大型数据集的新手,是google colab的新手。我有一个62 GB的数据集,我把它压缩到google的Files部分。

上传之前,它是68 GB可用,所以我不能上传压缩文件和解压缩,我没有足够的内存。有谁能帮我在google或任何平台上处理这些数据集吗?我目前是一个学生,没有太多的钱购买更好的内存空间。

非常感谢。

EN

回答 2

Stack Overflow用户

发布于 2022-04-17 18:51:23

您可以使用以下4种方法()将数据集上载到Colab笔记本上

1.使用!wget将数据集下载到服务器

Colab实际上是一个带有GPU的Centos虚拟机。您可以直接使用linux wget命令将数据集下载到服务器。默认情况下,下载到/content路径

下载并解压缩dataset命令:

代码语言:javascript
复制
#!wget https://download.pytorch.org/tutorial/hymenoptera_data.zip
#!unzip hymenoptera_data.zip -d ./

加载数据集命令:

代码语言:javascript
复制
# Define the dataset using ImageFolder
# define data preprocessing
train_tf = tfs.Compose([
   tfs.RandomResizedCrop(224),
   tfs.RandomHorizontalFlip(),
   tfs.ToTensor(),
   tfs.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) # Use ImageNet mean and variance
])
train_set = ImageFolder('./hymenoptera_data/train/', train_tf)

2.使用Google磁盘加载数据集

首先,在Colab中挂载Google磁盘的命令如下所示。执行后,您将被要求输入要挂载的Google帐户的键。

代码语言:javascript
复制
from google.colab import drive
drive.mount('/content/drive/')

将文件上传到Google,例如data/data.csv。上传的一种方法是手动上传,另一种是通过wget命令下载到Google磁盘,然后加载以供使用

存储在Google磁盘中的优点是,下次像第一种方法那样进行连接时,数据不会丢失。缺点是Google云磁盘只有15g,这不适合大数据集。将数据集下载到Google云磁盘的命令如下:

代码语言:javascript
复制
import os
#Change the current working directory to the path of Google Cloud Drive
path="/content/drive/My Drive/Colab Notebooks/"
os.chdir(path)
os.listdir(path)
#Use the wget command to download the dataset to this path
!wget https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/data.csv

负载数据集

代码语言:javascript
复制
train = pd.read_csv('/content/drive/My Drive/Colab Notebooks/data/data.csv')

3. kaggle的加载数据集

如果您在kaggle上玩游戏,您需要的数据集已经准备好了,您可以使用kaggle命令直接下载它。您需要选择在我的kaggle配置文件中创建一个api令牌,然后在本地生成用户名和密钥。

代码语言:javascript
复制
{"username":"gongenbo","key":"f26dfa65d06321a37f6b8502cd6b8XXX"}

下面以驱动状态检测项目为例,地址:https://www.kaggle.com/c/state-farm-distracted-driver-detection/data

命令通过kaggle下载数据。

代码语言:javascript
复制
!pip install -U -q kaggle
!mkdir -p ~/.kaggle
!echo '{"username":"gongenbo","key":"f26dfa65d06321a37f6b8502cd6b8XXX"}' > ~/.kaggle/kaggle.json
!chmod 600 ~/.kaggle/kaggle.json
!kaggle competitions download -c state-farm-distracted-driver-detection

训练后向kaggle提交分数的命令

代码语言:javascript
复制
!kaggle competitions submit -c state-farm-distracted-driver-detection -f submission.csv -m "Message"

4.使用“上载”按钮将上载到磁盘

谷歌提供了67G的磁盘空间。使用“上传”按钮上载下面的图像。这种方法适用于小型数据集或自己的数据集:

票数 1
EN

Stack Overflow用户

发布于 2022-08-15 07:56:09

在乔维安有一个叫做开放数据集的库。

首先,将它安装到colab中,使用-

代码语言:javascript
复制
!pip install opendatasets --upgrade
代码语言:javascript
复制
import opendatasets as od
dataset_url = 'https://www.kaggle.com/tunguz/us-elections-dataset'
od.download(dataset_url)

URL可以是任何链接,无论是google还是kaggle链接。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/71619540

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档