如何在slurm中申请来自不同节点的多个GPU？

文章/答案/技术大牛

发布

1回答

python、slurm

我想在3个GPU上运行我的作业，但我发现我无法从不同的节点获得3个GPU。#!/bin/bash#SBATCH --gres=gpu:3#SBATCH -t 7-00:00:00 id

浏览 222提问于2021-05-16得票数 0

1回答

毕火炬从SLURM作业中找不到超过1个GPU

python、pytorch、gpu、slurm

我正在使用SLURM为我拥有的ML作业从超级计算机中分配一些GPU节点。现在，我不知道我做错了什么，但这是我的SLURM文件： #!我仍然不确定问题是来自于我的python还是S

浏览 5提问于2022-04-01得票数 0

3回答

Slurm不能运行多个sbatch任务

linux、slurm

我已经在2节点集群上安装了Slurm。两个节点都是计算节点，其中一个也是控制器。我能够一次成功地运行多个作业的srun。我正在运行GPU作业，并已确认可以使用srun在多个GPU上运行多个作业，最多可达系统中的GPU数量。但是，当我尝试使用相同的测试文件运行sbatch时，它将只运行一个批处理作业，并且只在同时也是控制器的计算<

浏览 79提问于2019-02-14得票数 0

1回答

无法在Slurm中分配GPU

distributed-computing、hpc、slurm

我在Slurm集群上分配gpu资源时遇到了问题。计算节点的gres信息似乎正确，如下所示NODELISTnull) gpu:8 slurm.conf中<

浏览 82提问于2021-01-13得票数 1

1回答

SLURM:每个节点应该有不同的gres.conf吗？

gpu、cluster-computing、slurm

在配置slurm集群时，需要在所有节点上拥有配置文件slurm.conf的副本。这些副本是一样的。在集群中需要使用GPU的情况下，您需要在所有节点上拥有一个额外的配置文件。这是gres.conf。我的问题是-该文件在每个节点上是不同的，取决于该节点上的配置，还是在所有节点上都是相同的<

浏览 4提问于2020-03-05得票数 0

回答已采纳

1回答

Slurm:向多个节点提交时出错("slurmstepd: error: execve()：python: No此类文件或目录“)

bash、distributed-computing、slurm、sbatch

我有一个bash脚本submit.sh，用于向Slurm服务器提交培训作业。它的工作原理如下。正在做什么将提交一些与config_file相对应的任务到分区p1的8个GPU。p1的每个节点都有4个GPU，因此该命令请求2个节点。 submit.sh的内容可以概括如下，其中我使用sbatch提交一个Slurm脚本(train.s

浏览 9提问于2021-01-29得票数 2

回答已采纳

1回答

是否有一种方法可以将SLURM分区中的某些节点设置为首选于其他节点？

partition、hpc、slurm、sbatch

我有一个集群，它主要由CPU+GPU节点组成，只有几个CPU节点。目前，它们分别位于两个分区，'gpuNodes‘和'cpuNodes’。我们的需求在增长，只有我们的CPU作业需要使用CPU+GPU节点，而不是只使用CPU节点才能及时完成。我正在考虑创建一个“all”分区，其中包含来自前两个节点的节点。理想情况下，在向CPU+GPU节点

浏览 2提问于2020-06-17得票数 2

回答已采纳

1回答

将"fat“节点划分为多个Slurm节点

slurm

根据假设我们有一个具有10个CPU和40个CPU核心的节点。这是否可以用来将节点分割成10个节点，其中4个核心是1个GPU，每个

浏览 0提问于2020-04-20得票数 1

1回答

CUDA_VISIBLE_DEVICES变量的分隔值

bash、cuda、hpc、slurm

我正在使用SLURM作为调度程序的集群中运行作业。我使用选项--gres=gpu:k80指定GPU卡的类型。但是，因为群集的节点具有不同数量的卡，所以有时会出现2或4。我可以使用以下命令查看可用的设备：它报告一个列表，0,1或0,1,2,3。我需要列表的最大值1或3。这是我的问题: SLURM中有什么选项可以

浏览 1提问于2021-03-15得票数 0

1回答

SLURM节点、任务、核心和cpus

multithreading、parallel-processing、multiprocessing、slurm

有人能澄清这些事情的每一件事到底是什么吗？根据我收集的信息，节点是集群内的计算点，本质上是一台计算机。任务是可以在单个节点或多个节点上执行的进程。核心基本上是一个节点上CPU的多少，你想被分配给执行分配给那个CPU的任务。这是正确的吗？我是不是搞糊涂了？

浏览 2提问于2021-01-06得票数 12

回答已采纳

1回答

SLURM中的并行作业

slurm

如何在SLURM中的不同节点上运行多个python脚本？假设我使用#SBATCH --nodes=5选择了5个集群节点我有5个python脚本code1.py, code2.py....code5.py，我想在5个不同的节点上同时运行这些脚本。

浏览 7提问于2021-12-22得票数 0

1回答

一个专用的GPU可以共享给多个kubernetes吊舱吗？

kubernetes、gpu

我们是否可以在多个吊舱之间共享GPU，或者我们需要一些NVIDIA GPU的特定型号？

浏览 1提问于2022-03-17得票数 1

1回答

optuna.integration.TorchDistributedTrial支持多项式优化吗？

python、pytorch、distributed、optuna

我在SLURM集群上使用Optuna。假设我想使用两个具有两个gpus的节点进行分布式超参数优化。向多个节点提交像这样的脚本会产生预期的结果吗？我假设每个节点都将负责执行自己的测试(即没有节点共享测试)，而节点上的每个gpu负责由torch.utils.data.Dataloader的sampler确定的数据的

浏览 14提问于2022-11-02得票数 0

回答已采纳

1回答

如何让slurm限制每个节点的内存

slurm

Slurm管理一个具有8 8core/64 and ram和16 8core/128 and ram节点的集群。有一个低优先级的“长”分区和一个高优先级的“短”分区。在长分区中运行的作业可以由短分区中的作业挂起，在这种情况下，来自挂起的作业的页面大部分被推送到交换。(交换用途仅用于此目的，而不用于活动作业。)如何在slurm<

浏览 2提问于2017-05-16得票数 1

回答已采纳

1回答

仅使用一个GPU时，SLURM作业会占用整个节点

slurm

我正在向SLURM队列提交多个作业。每个作业使用1个GPU。每个节点有4个GPU。然而，一旦作业开始运行，它就会占用整个节点，留下3个空闲的GPU。有没有办法避免这种情况，这样我就可以向一个节点发送多个作业，每个节点使用一个GPU？我的脚本如下所示：#SLURM --n

浏览 2提问于2018-03-21得票数 3

2回答

如何使用相同的GPU设备在SLURM中定义多个gres资源？

tensorflow、gpu、slurm

我正在运行机器学习(ML)作业，这些作业使用很少的GPU内存。因此，我可以在一个GPU上运行多个ML作业。fatal: Gres GPU plugin failed to load configuration 我还有什么办法让这件事成功吗？或者用SLURM不同的方法来实现这一

浏览 0提问于2021-12-02得票数 1

回答已采纳

1回答

在同一个slurm工人上并行运行多个作业

linux

我们的SLURM集群中有一些相当胖的节点(例如，14个核心)。我试图将其配置为可以并行运行多个批处理作业，例如，每个请求3个核心。但是，我不能让它起作用。#!job-name=job1##SBATCH -N 1srun echo $HOSTNAME 摘录自slurm.confNodeName=some-node NodeAddr=192.168.60.10

浏览 0提问于2017-06-12得票数 2

1回答

只有当两人都获得分配的资源时，才运行2 slurm作业

pytorch、scheduled-tasks、distributed-computing、slurm

提交一个作业以获得4个GPU。第二个被提交以获得接下来的4个GPU(在另一个节点上)。如何确保这两个作业同时运行，从而最终实现同步(Pytorch DPP)。有一个额外的脚本来检查可用的资源是可行的，但是其他作业可能有优先级，因为它们在队列中，而不是等待. 我使用的特定分区不允许直接请求两个节点。我也知道--dependency标志，但是这只能用作第一个作业的完成检查。

浏览 31提问于2022-06-27得票数 0

1回答

Slurm:使用多个节点的核心进行R并行化

r、parallel-processing、hpc、slurm

我想在HPC上使用Slurm调度程序并行一个R脚本。每个计算节点有16个核心(32个线程)。我将R脚本传递给Slurm，配置如下，使用作为SLURM的接口。我试过

浏览 0提问于2019-02-27得票数 3

回答已采纳

1回答

SLURM+Docker:如何使用SLURMs scancel杀死由docker创建的进程

docker、deep-learning、cluster-computing、slurm、nvidia-docker

我们目前已经使用SLURM作为资源管理器设置了一个GPU计算集群。由于这是一个用于深入学习的集群，我们通过使用nvidia-docker映像来管理依赖关系，以方便不同的框架和CUDA版本。，节点上的对接进程就会被取消，但是在码头中启动的任何实验脚本仍然继续。据我们所知，这不是SLURM中的一个错误，而是这样的情况:杀死一个坞进程并不会杀死它生成的进程，它们只会被停

浏览 0提问于2019-03-14得票数 2

点击加载更多