将MPI限制为在单个GPU上运行，即使我们设置了单节点多GPU

、、、、

我是分布式计算的新手，我正在尝试运行一个使用MPI和ROCm(图形处理器上运行的AMD框架)的程序。我用来运行程序的命令是mpirun -np 4 ./a.out 但它默认运行在我机器上可用的2个GPU上。有没有办法让它只在单个GPU上运行，如果是，如何运行？提前感谢:)

浏览 226提问于2020-03-20得票数 1

回答已采纳

2回答

MPI + GPU :如何将这两种技术相结合

、、

我的程序非常适合MPI。每个CPU执行自己的、特定的(复杂的)工作，生成一个double，然后我使用一个MPI_Reduce来乘以来自每个CPU的结果。我在谷歌附近，但找不到任何具体的东西。如何将MPI与GPU混合使用？是否有一种方法来查询和验证“哦，这个等级是GPU，所有其他都是CPU”?重要的是，我不需要或不需要一套完整的GPU。我确

浏览 0提问于2012-04-09得票数 10

回答已采纳

2回答

在一个GPU上运行多个CUDA应用程序

、、、

CUDA文档没有具体说明多少CUDA进程可以共享一个GPU。例如，如果我由同一用户启动多个CUDA程序，而系统中只安装了一块GPU卡，会有什么效果？它能保证执行的正确性吗？在这种情况下，GPU如何调度任务？

浏览 1提问于2015-07-27得票数 42

回答已采纳

1回答

现在我运行的是两个MPI进程和两个GPU。我的系统有两个套接字，每个套接字连接到2个K80。由于每个K80内部包含2个GPU，因此每个套接字实际上连接到4个GPU。但我只使用两个核心在一个插座和2个GPU (1 K80)连接到该套接字。MPI编译器是MVAPICH2 2.2rc1，CUDA编译器版本是7.5。这就是背景。我分析了应用程序，发现通信是性能瓶颈。但是MVAPICH2需要Infiniband接口卡，这在我

浏览 12提问于2016-07-21得票数 0

回答已采纳

2回答

可以在多GPU机器上执行CUDA程序的多个实例吗？

、、、

问题：我正在一个带有4个GPU的Linux机器上运行我的代码，并且希望通过运行我的程序的4个实例(每个GPU一个)来利用所有4个GPU。是否有可能让该程序选择另一个CUDA应用程序没有使用的GPU来运行？当程序在不同的硬件上运行时，如果有更多或更少的GPU，我不想对任何可能导致问题的东西进行硬编码。

浏览 4提问于2015-06-18得票数 3

回答已采纳

1回答

只有当两人都获得分配的资源时，才运行2 slurm作业

、、、

提交一个作业以获得4个GPU。第二个被提交以获得接下来的4个GPU(在另一个节点上)。如何确保这两个作业同时运行，从而最终实现同步(Pytorch DPP)。有一个额外的脚本来检查可用的资源是可行的，但是其他作业可能有优先级，因为它们在队列中，而不是等待. 我使用的特定分区不允许直接请求两个节点。

浏览 31提问于2022-06-27得票数 0

2回答

TensorFlow Horovod: NCCL和MPI

、、、

正在将和MPI组合成一个用于分布式深度学习的包装器，例如TensorFlow。我以前没有听说过NCCL，我正在研究它的功能。以下是NVIDIA网站上关于NCCL的说明： NVIDIA集体通信库(NCCL)实现了对NVIDIA GPU性能进行优化的多GPU和多节点集体通信原语。从关于NCCL的中，我了解到NCCL是通过PCIe、NVLink、原生Infiniband、以太网工作的，它甚至可以通过RDMA检测GPU在当前硬件拓扑中是否有意义，并透明地使用它。所以我想问为什么在</e

浏览 2提问于2018-11-27得票数 11

1回答

Slurm中的GPU分配：-gres vs -GPU-每个任务，mpirun vs srun

、、、、

在批处理脚本中启动MPI任务还有两种方法:要么使用srun，要么使用通常的mpirun (当使用Slurm支持编译OpenMPI时)。我发现这些方法在行为上有一些惊人的差异。接下来，当作业至少在两个节点上运行时，我将描述的行为是可以观察到的。我在每个节点运行2个任务，因为我们每个节点有2个GPU。最后，有两个变体的GPU分配(A和B)和两个变体的程序执行(1和2)。变体B2 (--gpu</

浏览 33提问于2021-04-14得票数 5

1回答

是否可以使用系统内存而不是GPU内存来处理Dask任务？

、、

我们已经在库伯奈特上运行了一段时间了。到目前为止，我们一直在使用CPU进行处理，当然，还使用系统内存来存储大约1,5 TB的数据(每个DASK集群，分成960个工作人员)。现在，我们希望更新我们的算法，以利用GPU。但似乎GPU上的可用内存将不足以满足我们的需求，这将是一个限制因素(就我们目前的设置而言，每个虚拟核使用的内存超过1GB )。我能安

浏览 3提问于2022-02-24得票数 1

1回答

共享单个GPU的多个容器

、、、

我已经配置了一个运行在g4dn.xlarge实例上的ECS服务，该实例只有一个GPU。在此实例上运行一个任务和一个容器可以正常工作。当我将服务的期望任务计数设置为2时，将在服务上接收一个事件，该事件声明： Amazon将对可用的启用GPU的容器实例进行调度，并将物理GPU引脚到适当的容器中，以

浏览 5提问于2020-01-10得票数 5

1回答

使用PyTorch DistributedDataParallel在亚马逊SageMaker上拥抱脸

、、、

即使是单实例培训，PyTorch DistributedDataParallel (DDP)通常也比PyTorch DataParallel (DP)推荐，因为DP的策略性能较差，并且在默认设备上使用更多的内存(每单位)我最近遇到了这个问题:将HF培训任务从p3.8xlarge扩展到更高级的p3.16x

浏览 10提问于2022-09-08得票数 0

1回答

简单的MPI_Send和Recv给出了使用CUDA的分割错误(11)和无效权限(2)

、、、、

我已经验证了我有CUDA感知的MPI和一些简单的设备缓冲区到设备缓冲区MPI发送/ recv代码，这样我就可以在GPU设备内存之间发送和recv数组，而无需通过CPU/主机。我的代码是三维网格，它沿着z方向在不同的节点之间划分，光晕在节点之间传递，以确保流体可以在这些分区之间流动。光晕在GPU上。下面的代码是一个简化程序，编译后会产生与我的主要代码相同的错误。这里，等级0节点<e

浏览 1提问于2013-08-06得票数 6

回答已采纳

1回答

CUDA全局内存事务的成本

根据CUDA5.0编程指南，如果我同时使用L1和L2缓存(在费米或开普勒上)，所有的全局内存操作都是使用128字节的内存事务完成的。但是，如果我只使用L2，则使用32字节内存事务(F.4.2章)。让我们假设所有缓存都是空的。如果我有一个warp，每个线程以完全对齐方式访问一个4字节字，这将在L1+L2情况下导致1x128B事务，在仅L2情况下导致4x32B事务。是那么回事吗？我的直觉来自预费米硬件，它会更慢，但也许这在新的硬件上不再是真的？或者，我应该

浏览 0提问于2012-10-09得票数 5

回答已采纳

2回答

BSOD 0x09c在50台SuperMicro机上的应用

、

)：有时系统运行一周没有问题，有时在崩溃后仅10分钟，但大多数情况下，它运行了几个小时。我对Linux并不熟悉，也从未见过Linux，而且我也从未见过，因为服务器系统是无头的，我在DC中尝试过这一点。结果:系统将挂起，并在重新启动后，Linux报告XORG崩溃(GPU相关)。将BIOS中的GPU设置更改为“高于4G”，其余的BIOS是工厂默认设置。系统位于数据中心。温度、空气、功率

浏览 0提问于2016-04-16得票数 8

6回答

如何选择要在哪个GPU上运行作业？

、

在多GPU计算机中，如何指定一个CUDA作业应该在哪个GPU上运行？例如，在安装CUDA时，我选择安装NVIDIA_CUDA-<#.#>_Samples，然后运行几个nbody模拟实例，但它们都运行在一个GPU 0上；GPU 1完全空闲(使用watch -n 1 nvidia-dmi监视)。除了$CUDA_VISIBLE_DEVICES$之外，我还看到其他文章引用了环境变量$CUDA_

浏览 11提问于2016-09-22得票数 122

回答已采纳

11回答

如何解决TensorFlow中gpu内存不足的问题

我在TensorFlow中运行了MNIST演示程序，其中包含两个conv层和一个完整的层，我收到了一条消息，“内存用完了，试图分配2.59GiB”，但是它显示总内存为4.69GiB，空闲内存为3.22GiB对于更大的网络，我如何管理gpu内存？我只关心如何最好地利用gpu内存，并想知道它是如何发生的，而不是如何预先分配内存。

浏览 14提问于2016-04-29得票数 50

回答已采纳

6回答

如何在火炬中使用多个GPU？

、

我使用这个命令来使用GPU。device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")device

浏览 4提问于2019-01-16得票数 57

4回答

使用VBO使用JOGL可能发生内存泄漏

、、、、

为了在发送到GPU之前准备数据，我们使用缓冲区(FloatBuffer、ByteBuffer等)。圆柱的一些数据:每个柱体使用16 *9+ 16 *3=192个浮点数，-> 192 *4字节= 768字节。即使我们关闭圆柱体计数，内存也不会释放出来。在JConsole监控工具中有一个按钮来运行GC，如果我们手动运行它，它会释放内存(如果我们加载了大量的柱面并

浏览 10提问于2011-08-12得票数 2

回答已采纳

1回答

如何从ML库(如DataFrame或Tensorflow )访问GPU中的火花PyTorch数据

、、、、

在官方的spark-rapids文档中，我遇到了，它声明：在某些情况下，您可能希望访问GPU上的原始数据，最好不要复制它。这方面的一个用例是在进行特征提取之后将数据导出到ML框架。对我来说，这听起来好像可以使GPU上已经可以从上游的Spark进程中获得的数据直接提供给诸如Tensorflow或PyTorch这样的框架。如果是这样的话，我如何从这些框架中访问数据？

浏览 4提问于2021-01-04得票数 1

回答已采纳

4回答

tensorflow2.1 2.1 InvalidArgumentError:断言失败：[0] [Op:Assert]名称: EagerVariableNameReuse

、

当我运行代码时，我会得到以下错误： self.train_accuracy

浏览 5提问于2020-04-14得票数 6

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

MPI + GPU :如何将这两种技术相结合

在一个GPU上运行多个CUDA应用程序

一个K80中两个GPU的CUDA感知MPI

可以在多GPU机器上执行CUDA程序的多个实例吗？

只有当两人都获得分配的资源时，才运行2 slurm作业

TensorFlow Horovod: NCCL和MPI

Slurm中的GPU分配：-gres vs -GPU-每个任务，mpirun vs srun

是否可以使用系统内存而不是GPU内存来处理Dask任务？

共享单个GPU的多个容器

使用PyTorch DistributedDataParallel在亚马逊SageMaker上拥抱脸

简单的MPI_Send和Recv给出了使用CUDA的分割错误(11)和无效权限(2)

CUDA全局内存事务的成本

BSOD 0x09c在50台SuperMicro机上的应用

如何选择要在哪个GPU上运行作业？

如何解决TensorFlow中gpu内存不足的问题

如何在火炬中使用多个GPU？

使用VBO使用JOGL可能发生内存泄漏

如何从ML库(如DataFrame或Tensorflow )访问GPU中的火花PyTorch数据

tensorflow2.1 2.1 InvalidArgumentError:断言失败：[0] [Op:Assert]名称: EagerVariableNameReuse

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐