通过本地gpu和colab gpu进行分布式培训

、、、、

tensorflow将神经网络训练分布到多个gpus上：https://www.tensorflow.org/guide/distributed_training 我想知道是否有可能在我的笔记本电脑的gpu和colab gpu之间分发微调？

浏览 60提问于2020-03-28得票数 3

回答已采纳

1回答

在Google Colab中使用多个GPU的Tensorflow中的分布式训练

、、、

最近，我对将分布式培训整合到我的Tensorflow项目中产生了兴趣。我正在使用Google Colab和Python3来实现一个带有定制的、分布式的训练循环的神经网络，如本指南中所述：在“创建分发变量和图形策略”部分的指南中，有一些代码的图片，这些代码基本上设置了一个据我所知，输出表明MirroredStrategy只创建了模型的一个副本，因此，只有一个GPU将用于训练模型。我的问题是: Google Colab是否仅限于在单个GPU</e

浏览 8提问于2019-09-19得票数 5

1回答

在colab成功打开libudnn.so.7之后，训练停止了。

、

使用免费GPU，在“成功打开libcudn.so.7”之后，培训就停止了。我也尝试过没有GPU的训练，第一步之后训练就停止了。类似的问题以前也有报道过，但我似乎找不到一个可行的解决方案。这是在colab没有GPU的情况下进行培训的时候。这是在colab中使用GPU进行培训的时候。

浏览 13提问于2022-08-20得票数 1

2回答

Google colab上的结果与本地结果不同

、、、、

我开始用我的pc训练，但它太慢了，因为它不能运行在GPU上。因此，我开始使用Google colab进行更快的培训(使用GPU)。我在本地和Google Drive中保存了相同的数据集，在colab和我的pc中也有完全相同的代码，除了路径，因为我需要将它们更改为从Google Drive文件中读取。我的问题是，在我的电脑上训练unet的结果与用Google colab训练unet的结果有很大不同。我不知道为什么会发生这种情况(我在两者

浏览 12提问于2021-03-03得票数 0

3回答

Google pro GPU运行极慢

、、、

我正在colab Pro GPU上运行一个Convnet。我在运行时选择了GPU，可以确认GPU是可用的。我运行的网络和昨天晚上完全一样，但每次运行大约需要2小时。我有一种感觉，colab可能限制了我的GPU的使用，但我不知道如何判断这是否是问题所在。GPU的速度会因时间等而波动吗？我还试着把colab中的加速器换成“None”，我的网络速度和选择的GPU一样快，这意味着由于某种原因，我不再在<em

浏览 1提问于2020-03-22得票数 5

回答已采纳

1回答

使用多GPU方法的tensorflow分布式训练混合

、、、、

在尝试了当前的分布式训练实现后，我认为它将每个GPU视为一个单独的worker.However，现在在一个盒子中有2~4个GPU是很常见的。采用单盒多GPU方法首先计算单盒中的平均梯度，然后跨多个节点同步，不是更好吗？这种方式大大减轻了I/O流量，而I/O流量一直是数据并行性的瓶颈。有人告诉我，在目前的实现中，可以通过将所有GPU放在一个盒子中作为工作程序，但我无法弄清楚如何将平均梯度与SyncReplicasOptimizer联系起来，因为SyncReplicasO

浏览 14提问于2016-09-20得票数 0

2回答

如何用多个GPU训练电筒模型？

、、

我的服务器有两个GPU，我如何使用两个GPU同时进行训练，以最大限度地利用它们的计算能力？下面的代码正确吗？它能让我的模特接受适当的训练吗？

浏览 5提问于2022-08-07得票数 3

回答已采纳

1回答

有没有办法在我的终端上运行GPU上的代码？

、、

我已经使用GPU加速服务，如谷歌Colab有一段时间，但我不满意。我不喜欢用朱庇特笔记本来写我所有的代码，我也有一些其他的问题。我想知道是否有一种方法可以在我的终端上运行命令，比如upload train.py，将文件train.py上传到服务器，然后运行run train.py或类似的东西在服务器上运行，并将输出显示在本地终端上

浏览 0提问于2020-12-08得票数 1

回答已采纳

7回答

Google-colaboratory:没有GPU的后端可用。

描述了如何将gpu与google-colaboratory一起使用： import tensorflow as tfif device_name

浏览 11提问于2018-01-29得票数 25

回答已采纳

1回答

图像.分类.传递-学习技巧

当我尝试用Sagemaker进行图像分类时，我遇到了这样的错误： ClientError: An error occurred (ValidationException) when calling the

浏览 0提问于2018-09-16得票数 0

1回答

我有一个NVIDIA 2000图形卡，我想安装TensorFlow。它能用吗？

、、、

Xeon(R) W3520 @2.67GHz 2.66GHz 让我知道一点深度，因为我是个初学者.

浏览 2提问于2020-02-07得票数 0

回答已采纳

1回答

当使用TF2 (oibject检测API)时，多个GPU会允许更大的模型和批处理大小吗？

、、、

然而，当我试图训练一个大型模型(例如，一个更大的有效网络模型)和/或当我想使用一个较大的批处理大小(例如> 32)时，我就耗尽了GPU内存。现在我想租一些云GPU或者用第二个GPU升级我的本地硬件。其想法是在多个GPU上训练TF2模型。不过，在我花这笔钱之前，我想知道这是否能解决我的问题。因此，当一个人在多个GPU上训练一个TF2模型(通过对象检测API)时，这是否也会“合并”它们的内存，以便我可以训练更大的模型和&

浏览 3提问于2021-03-08得票数 0

回答已采纳

2回答

TensorFlow Horovod: NCCL和MPI

、、、

正在将和MPI组合成一个用于分布式深度学习的包装器，例如TensorFlow。我以前没有听说过NCCL，我正在研究它的功能。以下是NVIDIA网站上关于NCCL的说明： NVIDIA集体通信库(NCCL)实现了对NVIDIA GPU性能进行优化的多GPU和多节点集体通信原语。从关于NCCL的中，我了解到NCCL是通过PCIe、NVLink、原生Infiniband、以太网工作的，它甚至可以通过RDMA检测GPU在当前硬件拓扑中是否有

浏览 2提问于2018-11-27得票数 11

2回答

极慢的CNN

、

我试图在R中训练一个带有角角的CNN，我有一个时间序列，它是三维的，所以每个样本都有尺寸95 x 365，有80个特征，我把它们作为频道输入。输出值仅为1。问题是网速太慢了。用400个样本训练1次，只需33分钟。这个体系结构非常简单(实际上我有一个更深的网，但是由于它太慢了，所以我简化了它，看它是否有用)： model %>%

浏览 0提问于2019-06-15得票数 0

1回答

将keras函数转换为tensorFlow.keras函数以利用图形处理器

但是，该程序未使用GPU。如何将我的程序转换为运行在tensorFlow环境下使用tensorFlow.keras来利用我的图形处理器？

浏览 19提问于2021-08-12得票数 1

1回答

tensorflow对象检测支持分布式策略吗？

、

系统信息 分布式环境：2台机器，每个有8个G

浏览 2提问于2018-12-05得票数 1

1回答

SageMaker对象检测支持分布式训练吗？

我想通过使用分布式训练来缩短使用SageMaker内置对象检测算法(实例计数> 1)的训练作业的时间。我试图通过将培训数据分割成多个RecordIO文件而不是仅仅一个文件来做到这一点。“在火车通道中找到多个RecordIO文件”此错误导致培训作业失败。目前只支持单个RecordIO文件。这使我相信，该算法不支持通过分布式训练来加快训练时间。我说的对吗？还是有其他方法可以利用多个培训实例来加快培训工作的持续时间？

浏览 2提问于2022-09-12得票数 0

1回答

SageMaker多节点点支持的GPU训练是反模式的吗？

、、

在SageMaker上进行支持多节点的分布式GPU培训是一种反模式吗？Sagemaker不支持可变大小集群的事实此外，EC2-Spot文档阻止用户在多节点工作流中使用Spot，其中节点紧密耦合(在数据并行和模型并行培训中就是这种情况)“Spot实例不适合于不灵活这里有谁有过在SageMaker上进行现场支持的分布式GPU培训的经验？

浏览 7提问于2022-10-15得票数 0

3回答

Kaggle笔记本诉谷歌Colab

、、、

Kaggle笔记本和Google笔记本的主要区别是什么？Kaggle有一个控制台，Colab没有(但我仍然不知道如何处理控制台)。Kaggle笔记本允许在Kaggle网站上与其他用户协作，而Colab允许任何使用该笔记本链接的用户协作。 Kaggle没有像Colab那样的“堆栈溢出”即时搜索。Kaggle需要上传数据到Kaggle的网站，而Col

浏览 0提问于2020-07-16得票数 6

2回答

Kubernetes GPU吊舱/Kubeflow

我可以成功地创建一个带有4个GPU的木星笔记本服务器，并在其上使用keras模型，一切都很好。我可以使用8 gpu (4来自一台服务器，4来自另一台服务器)来创建jupyter笔记本服务器或运行任何gpupod，或者只有4对于一个gpupod是可以为我？当我尝试使用8个GPU时，我得到了0/2 nodes are available: 2 Insufficient nvidia.com/gpu

浏览 0提问于2020-04-10得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在Google Colab中使用多个GPU的Tensorflow中的分布式训练

在colab成功打开libudnn.so.7之后，训练停止了。

Google colab上的结果与本地结果不同

Google pro GPU运行极慢

使用多GPU方法的tensorflow分布式训练混合

如何用多个GPU训练电筒模型？

有没有办法在我的终端上运行GPU上的代码？

Google-colaboratory:没有GPU的后端可用。

图像.分类.传递-学习技巧

我有一个NVIDIA 2000图形卡，我想安装TensorFlow。它能用吗？

当使用TF2 (oibject检测API)时，多个GPU会允许更大的模型和批处理大小吗？

TensorFlow Horovod: NCCL和MPI

极慢的CNN

将keras函数转换为tensorFlow.keras函数以利用图形处理器

tensorflow对象检测支持分布式策略吗？

SageMaker对象检测支持分布式训练吗？

SageMaker多节点点支持的GPU训练是反模式的吗？

Kaggle笔记本诉谷歌Colab

Kubernetes GPU吊舱/Kubeflow

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐