首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >用于PyTorch的云存储桶

用于PyTorch的云存储桶
EN

Stack Overflow用户
提问于 2018-08-01 17:32:15
回答 1查看 1.3K关注 0票数 1

对于我正在处理的特定任务,我有一个大约25 GB的数据集。我仍然在试验几种预处理方法,而且肯定还没有最终的数据。我不确定这类问题的通用工作流是什么,下面是我的想法:

  1. 将数据集从桶存储复制到计算引擎机器SSD (可能使用大约50 GB的SSD)。
  2. 应用各种预处理操作作为实验。
  3. 使用PyTorch对存储在本地磁盘上的数据进行培训(SSD)
  4. 如果新处理的数据成功,则将其复制回带有gcs引信的存储桶中。
  5. 上载结果并删除培训期间使用的持久磁盘。

另一种办法是:

  1. 使用带有gcs引信的挂载目录运行云桶本身中数据的处理操作
  2. 使用PyTorch直接在安装的gcsfuse目录上运行培训,使用存储非常有限的计算引擎实例。
  3. 上载结果和删除计算引擎实例。

这些方法中的哪一种是建议的?这将产生较少的费用,并经常使用在运行这类操作。有没有不同的工作流程,我在这里没有看到?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-08-02 11:01:33

在计费方面,费用是相同的,因为根据文档,保险丝操作就像任何其他云存储接口一样收费。在您的用例中,我不知道您将如何训练数据,但是如果您对文件执行了多个操作,最好是下载它们,在本地进行培训,然后上传最后的结果,即2个对象操作。例如,如果在培训期间更改或读取多个文件,则每个操作都将是一个对象操作。在工作流程方面,我觉得这个提议很好。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51639141

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档